SEO Cơ Bản

Crawl Budget

Số lượng trang mà Googlebot có thể và muốn thu thập trong một lần crawl — phụ thuộc vào tốc độ và quy mô trang.

3 lượt xem Cập nhật: 26/05/2026

Crawl Budget là gì?

Crawl Budget (ngân sách thu thập) là số lượng trang mà Googlebot có thể và muốn thu thập (crawl) trên một trang web trong một khoảng thời gian nhất định — thường là mỗi ngày hoặc mỗi lần quét. Đây không phải là giới hạn cứng do Google đặt ra, mà là kết quả của hai yếu tố chính: tốc độ thu thập tối đa (crawl rate limit) và mức độ ưu tiên thu thập (crawl demand).

Tốc độ thu thập tối đa phụ thuộc vào khả năng phản hồi của máy chủ website (thời gian tải trang, mã trạng thái HTTP, lỗi kết nối…). Mức độ ưu tiên thu thập thì dựa vào mức độ quan trọng, tính cập nhật và mức độ tin cậy của nội dung theo đánh giá của Google.

Tại sao quan trọng trong SEO?

Với website lớn (hàng chục nghìn trang trở lên), crawl budget trở thành yếu tố then chốt để đảm bảo Googlebot tập trung vào những trang có giá trị nhất — như trang sản phẩm, bài viết mới, trang danh mục quan trọng — thay vì lãng phí thời gian vào trang trùng lặp, trang lỗi 404, trang thử nghiệm hay trang không có nội dung.

Nếu crawl budget bị phân bổ sai, các trang quan trọng có thể bị thu thập chậm, cập nhật muộn hoặc thậm chí không được index — dẫn đến giảm hiển thị trên kết quả tìm kiếm. Ngược lại, website nhỏ (dưới 1.000 trang) thường không cần lo lắng nhiều về crawl budget, vì Googlebot dễ dàng thu thập toàn bộ trang trong vài phút.

Cách hoạt động

Googlebot quyết định crawl budget dựa trên hai cơ chế song song:

  1. Crawl rate limit: Tốc độ tối đa Googlebot có thể gửi yêu cầu tới máy chủ bạn mà không gây quá tải. Google tự động điều chỉnh dựa trên thời gian phản hồi (TTFB), tần suất lỗi 5xx, và độ ổn định của server.
  2. Crawl demand: Mức độ “muốn” thu thập của Googlebot, phụ thuộc vào: độ phổ biến của trang (lượt click từ SERP, backlink), tần suất cập nhật nội dung, độ tin cậy của domain (trọng số lịch sử), và mức độ độc đáo của nội dung.

Khi crawl rate limit cao nhưng crawl demand thấp (ví dụ: trang blog ít người đọc, nội dung cũ không cập nhật), Googlebot sẽ giảm tần suất thu thập — dù server đủ mạnh. Ngược lại, trang thường xuyên được cập nhật và có nhiều backlink sẽ được ưu tiên cao hơn, ngay cả khi tốc độ server trung bình.

Hướng dẫn thực hiện

Dưới đây là các bước thiết thực để tối ưu crawl budget — áp dụng cho website vừa và lớn:

  1. Loại bỏ hoặc chặn trang không cần index: Dùng noindex, robots.txt (chỉ với trang không bao giờ cần crawl, ví dụ: /admin/, /cgi-bin/), hoặc redirect 301 nếu trang đã bị xóa.
  2. Sửa lỗi kỹ thuật: Khắc phục lỗi 404, 5xx, redirect chuỗi dài (>3 bước), và trang trả về mã trạng thái không rõ ràng (như 200 cho trang lỗi).
  3. Tối ưu cấu trúc liên kết nội bộ: Đảm bảo trang quan trọng được liên kết từ trang chủ hoặc các trang có độ uy tín cao trong site. Tránh “rò rỉ” link juice vào trang không quan trọng qua menu, footer hoặc widget.
  4. Cập nhật sitemap.xml đúng cách: Chỉ đưa vào sitemap những trang có nội dung hữu ích, đang hoạt động và có khả năng index. Không thêm trang paginated, trang filter, hay phiên bản mobile riêng nếu đã dùng responsive.
  5. Giám sát qua Google Search Console: Theo dõi báo cáo Crawl StatsURL Inspection để phát hiện trang bị crawl nhưng không index, hoặc trang bị crawl quá thường xuyên nhưng không mang lại giá trị.

Lỗi thường gặp

Lỗi Hệ quả Cách khắc phục
Trang trùng lặp (thiếu rel=canonical) Googlebot crawl nhiều URL cùng nội dung → lãng phí ngân sách Thiết lập thẻ rel="canonical" rõ ràng; dùng parameter handling trong GSC nếu cần
Redirect chuỗi dài hoặc vòng lặp Googlebot dừng thu thập trước khi đến trang đích Rút gọn chuỗi redirect; kiểm tra bằng công cụ như Screaming Frog hoặc Redirect Path
Trang trả về mã 200 nhưng không có nội dung (soft 404) Googlebot tiếp tục crawl trang “giả”, làm giảm hiệu suất tổng thể Chuyển sang trả về 404 thật hoặc 410 nếu trang không tồn tại; kiểm tra bằng GSC > Coverage

Ví dụ thực tế

Một website thương mại điện tử có 250.000 trang sản phẩm, nhưng chỉ 80.000 trang đang còn hàng và được cập nhật giá hàng tuần. Các trang còn lại là sản phẩm ngừng kinh doanh, phiên bản cũ, hoặc trang filter theo màu/kích thước (ví dụ: /ao-thun?color=red&size=m). Trước khi tối ưu, Googlebot crawl trung bình 12.000 URL/ngày — trong đó hơn 7.000 URL là trang filter hoặc 404.

Sau khi triển khai:

  • Thêm noindex,follow cho tất cả trang filter và sort
  • Redirect 301 các SKU ngừng bán về danh mục cha
  • Sửa 2.300 soft 404 thành 404 thật
  • Cập nhật sitemap chỉ chứa 95.000 URL chất lượng
→ Kết quả sau 4 tuần: Số trang được crawl tăng lên 15.500/ngày, trong đó 92% là trang sản phẩm đang hoạt động. Tỷ lệ index tăng 22%, và thời gian từ crawl đến index trung bình giảm từ 3,2 ngày xuống còn 1,7 ngày.

Câu hỏi thường gặp

Crawl budget có phải là giới hạn cố định do Google đặt ra?

Không. Google không công bố hay áp đặt crawl budget cố định. Đây là kết quả tự nhiên từ khả năng server và nhu cầu thu thập. Một số website lớn có thể được crawl hàng trăm nghìn trang mỗi ngày, trong khi website nhỏ chỉ vài chục — tùy trường hợp.

Có nên dùng robots.txt để chặn toàn bộ thư mục /tag/ hoặc /search/?

Có thể, nhưng cần cân nhắc. Nếu các trang đó không có giá trị SEO và không cần index, việc chặn bằng robots.txt là hợp lý. Tuy nhiên, nếu bạn muốn Google biết về cấu trúc nội dung (để hiểu chủ đề), tốt hơn nên để crawl nhưng thêm noindex. Lưu ý: robots.txt chặn crawl — nhưng không ngăn index nếu có backlink bên ngoài.

Website nhỏ dưới 500 trang có cần tối ưu crawl budget không?

Không bắt buộc. Với quy mô này, Googlebot thường thu thập toàn bộ trang trong vài phút mỗi lần. Tập trung vào chất lượng nội dung, tốc độ tải và trải nghiệm người dùng sẽ mang lại hiệu quả SEO cao hơn.