Crawl Rate Limit
Giới hạn tốc độ crawler truy cập website, có thể điều chỉnh qua Google Search Console hoặc cấu hình server.
Crawl Rate Limit là gì?
Crawl Rate Limit (giới hạn tốc độ thu thập dữ liệu) là mức tối đa mà Googlebot — trình thu thập nội dung của Google — được phép truy cập vào các trang trên một website trong một khoảng thời gian nhất định. Đây không phải là số lần crawl cố định mỗi phút, mà là tần suất yêu cầu HTTP mà Googlebot gửi đến máy chủ của bạn, nhằm tránh gây quá tải hệ thống.
Giới hạn này do Google tự động điều chỉnh dựa trên khả năng phản hồi của máy chủ: nếu trang tải nhanh, ổn định và trả mã trạng thái 200, Googlebot có thể tăng tần suất. Ngược lại, nếu server chậm, trả lỗi 5xx hoặc timeout thường xuyên, Google sẽ giảm tốc độ crawl để bảo vệ hiệu năng.
Tại sao quan trọng trong SEO?
Khi giới hạn crawl quá thấp, Googlebot có thể không thu thập đủ trang mới hoặc cập nhật nội dung cũ kịp thời — dẫn đến trang bị bỏ sót trong chỉ mục, nội dung lỗi không được phát hiện sớm, hoặc trang mới mất nhiều tuần mới xuất hiện trong kết quả tìm kiếm.
Ngược lại, nếu máy chủ không được cấu hình đúng nhưng Googlebot vẫn crawl quá nhanh (ví dụ: do site có hàng chục nghìn URL nhưng không có robots.txt hợp lý), hệ thống có thể bị nghẽn, làm chậm tốc độ tải cho người dùng thật, thậm chí gây crash tạm thời.
Vì vậy, việc hiểu và quản lý Crawl Rate Limit giúp cân bằng giữa tối ưu hóa khả năng lập chỉ mục và bảo vệ hiệu năng kỹ thuật — hai yếu tố then chốt của Technical SEO.
Cách hoạt động
Googlebot vận hành như một “khách hàng tự động”: nó gửi yêu cầu HTTP tới từng URL, đọc phản hồi (mã trạng thái, header, nội dung HTML), sau đó quyết định có tiếp tục crawl sâu hơn hay không. Tốc độ gửi yêu cầu phụ thuộc vào:
- Thời gian phản hồi trung bình của máy chủ (TTFB)
- Tỷ lệ lỗi (4xx/5xx) trong các yêu cầu gần đây
- Mức độ ổn định của DNS và kết nối mạng
- Khả năng xử lý đồng thời (concurrency) của server
Google không công bố ngưỡng cụ thể về số request/giây vì nó thay đổi theo từng site. Tuy nhiên, với đa số website chuẩn (server VPS hoặc cloud, không dùng CDN kém), tốc độ crawl thường dao động từ vài chục đến vài trăm request mỗi phút — tùy vào quy mô và độ tin cậy.
Hướng dẫn thực hiện
Bạn không thể đặt Crawl Rate Limit trực tiếp qua Google Search Console kể từ năm 2019. Tính năng “Điều chỉnh tốc độ crawl” đã bị Google loại bỏ vì không còn phù hợp với cách bot hiện đại hoạt động. Thay vào đó, bạn kiểm soát gián tiếp thông qua:
- Cấu hình server hợp lý: Đặt
Keep-Alive, tối ưu thời gian timeout, giới hạn số kết nối đồng thời (ví dụ: trong Nginx dùnglimit_connhoặc Apache dùngMaxRequestWorkers) - Sử dụng robots.txt đúng cách: Dùng
Disallowđể chặn các thư mục không cần lập chỉ mục (như /admin/, /wp-includes/), giúp Googlebot tập trung vào URL quan trọng - Thiết lập header
X-Robots-Tag: Dùng giá trịnoindex, nofollowhoặcunavailable_aftercho trang tạm thời hoặc nội dung trùng lặp - Tối ưu sitemap.xml: Chỉ đưa vào các URL có giá trị, cập nhật thường xuyên, phân chia theo chủ đề (sitemap index), và gửi qua Search Console
- Giám sát qua Search Console: Xem báo cáo “Hiệu suất thu thập” (Crawl Stats) để theo dõi số yêu cầu/ngày, thời gian phản hồi trung bình và tỷ lệ lỗi — từ đó đánh giá ảnh hưởng của cấu hình server
Lỗi thường gặp
1. Máy chủ trả mã 503 hoặc timeout liên tục khi Googlebot crawl
Nguồn gốc: Server quá tải do crawl rate cao kết hợp với tài nguyên hạn chế (RAM/CPU thấp, không có cache). Cách khắc phục: Kích hoạt cache toàn phần (Varnish, Redis), thêm tầng CDN (Cloudflare), hoặc giới hạn số request đồng thời từ cùng một IP (dùng mod_evasive hoặc fail2ban).
2. Googlebot crawl quá ít dù site khỏe mạnh
Nguồn gốc: Thường do thiếu internal link rõ ràng, URL bị chặn bởi robots.txt hoặc meta noindex, hoặc sitemap chưa được gửi. Cách khắc phục: Kiểm tra kỹ robots.txt, chạy thử lệnh site:tenmien.com để so sánh số trang hiển thị vs số URL trong sitemap, dùng công cụ URL Inspection trong Search Console để kiểm tra trạng thái crawl từng trang.
3. Crawl budget bị phân bổ sai
Nguồn gốc: Hàng nghìn URL tạo tự động (filter, pagination, session ID) khiến Googlebot lãng phí thời gian vào nội dung không có giá trị. Cách khắc phục: Dùng rel="canonical", chặn URL dạng tham số qua URL Parameters trong Search Console (nếu còn hỗ trợ), hoặc áp dụng noindex,follow cho trang phân trang.
Ví dụ thực tế
Một website thương mại điện tử Việt Nam có 80.000 sản phẩm, nhưng không tối ưu robots.txt và để lộ hàng loạt URL dạng /san-pham?sort=price&order=asc&page=127. Trong vòng 1 tháng, Googlebot tiêu tốn 65% crawl budget cho các URL trùng lặp và không có nội dung riêng. Sau khi triển khai:
- Thêm
Disallow: /*?*trong robots.txt (chặn tất cả URL có tham số) - Áp dụng canonical cho trang danh mục
- Gửi sitemap chỉ chứa URL sản phẩm chính (không có filter)
Kết quả: Tỷ lệ crawl thành công tăng từ 42% lên 91%, thời gian lập chỉ mục sản phẩm mới giảm trung bình từ 17 ngày xuống còn 3–4 ngày.
Câu hỏi thường gặp
Có thể yêu cầu Google tăng crawl rate không?
Không. Google không nhận yêu cầu thủ công để tăng tốc độ crawl. Cách duy nhất là cải thiện hiệu năng server và chất lượng cấu trúc site để bot tự động tăng tần suất.
Crawl Rate Limit có giống Crawl Budget không?
Không. Crawl Budget là tổng số URL Googlebot có thể và muốn crawl trong một khoảng thời gian (phụ thuộc vào tầm quan trọng + khả năng thu thập), còn Crawl Rate Limit là giới hạn tốc độ gửi yêu cầu — chỉ liên quan đến mặt kỹ thuật của máy chủ, không liên quan đến giá trị nội dung.
Website nhỏ có cần quan tâm đến Crawl Rate Limit?
Có, nhưng mức độ ưu tiên thấp hơn. Với site dưới 1.000 trang, vấn đề thường nằm ở việc được crawl chứ không phải bị crawl quá nhanh. Tuy nhiên, nếu dùng hosting chia sẻ chất lượng kém, việc Googlebot gửi nhiều request cùng lúc vẫn có thể gây treo trang — nên luôn kiểm tra báo cáo Crawl Stats định kỳ.
| Yếu tố | Ảnh hưởng tích cực đến Crawl Rate | Ảnh hưởng tiêu cực đến Crawl Rate |
|---|---|---|
| Thời gian phản hồi (TTFB) | < 200ms | > 1.5s hoặc biến động lớn |
| Tỷ lệ lỗi 5xx | < 0.5% | > 5% trong 24h |
| robots.txt | Cho phép crawl URL quan trọng, rõ ràng | Chặn nhầm thư mục chính hoặc dùng wildcard sai |
| Header HTTP | Trả mã 200 + Cache-Control hợp lý | Luôn trả 302 hoặc redirect vòng lặp |