Google Algorithm

Crawling Budget

Số lượng và tần suất Googlebot thu thập (crawl) các URL trên một trang web trong khoảng thời gian nhất định, phụ thuộc vào tốc độ trang và cấu trúc site.

5 lượt xem Cập nhật: 01/06/2026

Crawling Budget là gì?

Crawling Budget (ngân sách thu thập) là khái niệm chỉ số lượng và tần suất Googlebot truy cập, tải và phân tích các URL trên một trang web trong một khoảng thời gian nhất định — thường tính theo ngày. Đây không phải là giới hạn cứng do Google công bố, mà là kết quả của việc cân bằng giữa tốc độ thu thập an toàn (crawl rate limit) và khả năng thu thập thực tế (crawl demand) dựa trên mức độ quan trọng, độ mới và mức độ tin cậy của nội dung.

Tại sao quan trọng trong SEO?

Nếu Googlebot không thu thập đủ URL quan trọng trên trang web của bạn, những trang đó sẽ không được lập chỉ mục — dẫn đến không xuất hiện trong kết quả tìm kiếm, dù nội dung có chất lượng cao đến đâu. Đặc biệt với website lớn (trên 10.000 trang), ngân sách thu thập bị phân tán vào các URL không cần thiết (như phiên bản in, bộ lọc, tham số URL dư thừa) khiến các trang chủ chốt bị bỏ sót. Điều này ảnh hưởng trực tiếp đến khả năng hiển thị và lưu lượng tìm kiếm tự nhiên.

Cách hoạt động

Googlebot điều chỉnh ngân sách thu thập dựa trên hai yếu tố chính:

  • Crawl rate limit: Tốc độ tối đa Googlebot có thể thu thập mà không gây quá tải cho máy chủ. Được xác định tự động qua phản hồi HTTP (thời gian phản hồi, mã lỗi 5xx, timeout), cấu hình robots.txt, và lịch sử ổn định của máy chủ.
  • Crawl demand: Mức độ “muốn” thu thập của Google, phụ thuộc vào: tần suất cập nhật nội dung, mức độ liên kết từ bên ngoài (backlink), lượt click trong SERP, độ phổ biến của chủ đề, và mức độ tin cậy của tên miền.

Ngân sách thu thập = min(crawl rate limit, crawl demand). Nếu trang web chậm hoặc trả mã lỗi thường xuyên, Google sẽ giảm tốc độ thu thập để tránh ảnh hưởng đến trải nghiệm người dùng — ngay cả khi nhu cầu thu thập cao.

Hướng dẫn thực hiện

Để tối ưu ngân sách thu thập, hãy làm theo các bước sau:

  1. Loại bỏ hoặc chặn các URL không cần lập chỉ mục: Dùng robots.txt để chặn thư mục quản trị, trang tìm kiếm nội bộ, trang đăng nhập; hoặc dùng thẻ noindex cho các trang tồn tại nhưng không nên xuất hiện trong tìm kiếm (ví dụ: trang so sánh giá theo bộ lọc).
  2. Tối ưu tốc độ tải trang: Đảm bảo thời gian phản hồi máy chủ (TTFB) dưới 300ms, giảm thiểu yêu cầu HTTP, nén tài nguyên. Googlebot ưu tiên thu thập các trang tải nhanh và ổn định.
  3. Sửa lỗi server và redirect: Khắc phục mã lỗi 5xx, giảm số lượng redirect chuỗi (3xx), tránh redirect vòng lặp. Mỗi lỗi hoặc redirect tiêu tốn một phần ngân sách thu thập.
  4. Duy trì sơ đồ site hợp lý: Gửi sitemap.xml qua Google Search Console, chỉ bao gồm URL quan trọng, đã được kiểm tra không bị trùng lặp, không có thẻ noindex, và cập nhật thường xuyên khi có nội dung mới.
  5. Giám sát qua Google Search Console: Theo dõi báo cáo Crawl StatsURL Inspection để phát hiện URL bị thu thập nhưng không được lập chỉ mục, hoặc URL bị bỏ qua do lỗi.

Lỗi thường gặp

Dưới đây là những sai lầm phổ biến và cách khắc phục:

Lỗi Hệ quả Cách khắc phục
URL trùng lặp với nhiều tham số (ví dụ: ?utm_source=fb&sort=price) Googlebot thu thập hàng trăm phiên bản giống nhau → lãng phí ngân sách Dùng thẻ rel="canonical", cấu hình tham số trong Search Console, hoặc chặn qua robots.txt
Trang lỗi 404/410 chưa được dọn dẹp khỏi sitemap Googlebot cố thu thập URL không tồn tại → tăng thời gian chờ và lỗi Xóa URL lỗi khỏi sitemap, kiểm tra định kỳ bằng báo cáo Index Coverage
Redirect chuỗi dài (A → B → C → D) Mỗi redirect tiêu tốn một lần thu thập → giảm hiệu suất Rút gọn thành redirect trực tiếp (A → D); kiểm tra bằng công cụ như Screaming Frog

Ví dụ thực tế

Một website thương mại điện tử Việt Nam có hơn 500.000 sản phẩm, mỗi sản phẩm có 5–7 biến thể (màu, kích thước) và 3 bộ lọc (giá, thương hiệu, đánh giá). Tổng số URL tiềm năng vượt 2 triệu. Trong báo cáo Google Search Console, nhóm SEO phát hiện chỉ ~8% URL được thu thập mỗi ngày, và phần lớn là các trang danh mục theo bộ lọc không có nội dung độc đáo.

Sau khi áp dụng: (1) chặn các tham số bộ lọc qua robots.txt, (2) thêm thẻ rel="canonical" cho các biến thể sản phẩm, (3) loại bỏ 92.000 URL lỗi 404 khỏi sitemap, (4) tối ưu TTFB từ 1.2s xuống 280ms — ngân sách thu thập tăng 3,2 lần trong 4 tuần. Số trang được lập chỉ mục tăng 41%, và lưu lượng tìm kiếm tăng 27% trong cùng kỳ.

Câu hỏi thường gặp

Crawling Budget có phải là giới hạn cố định do Google đặt ra?

Không. Google không công bố hay áp đặt giới hạn cố định. Ngân sách thu thập là kết quả tự động điều chỉnh dựa trên hiệu suất máy chủ và nhu cầu thu thập. Với website nhỏ (<500 trang), vấn đề gần như không tồn tại — Googlebot thường thu thập toàn bộ trong vài giờ.

Có nên tăng crawl rate thủ công trong Search Console?

Không khuyến khích. Tính năng Change crawl rate đã bị Google loại bỏ từ năm 2019. Việc cố gắng đẩy mạnh thu thập khi máy chủ không đáp ứng được sẽ gây lỗi 503 hoặc timeout — làm Google tự động giảm ngân sách lâu dài.

Website mới có ngân sách thu thập thấp hơn không?

Có thể thay đổi. Website mới thường có crawl demand thấp do thiếu backlink và lịch sử cập nhật. Nhưng nếu được liên kết mạnh từ ngày đầu và cập nhật nội dung đều đặn, ngân sách thu thập có thể tăng nhanh trong vài tuần — tùy trường hợp.