Google Search Console

Crawl Stats

Biểu đồ thống kê tần suất, số lượng và dung lượng dữ liệu Googlebot thu thập theo thời gian.

4 lượt xem Cập nhật: 30/05/2026

Crawl Stats là gì?

Crawl Stats là bảng điều khiển trong Google Search Console (GSC) hiển thị dữ liệu thống kê về hoạt động thu thập nội dung của Googlebot trên trang web bạn. Biểu đồ này theo dõi ba chỉ số chính theo thời gian: số lần thu thập (crawl requests), tần suất thu thập (crawl frequency)dung lượng dữ liệu tải về (crawl data downloaded). Dữ liệu được tổng hợp trong vòng 90 ngày gần nhất, cập nhật chậm nhất sau 3–5 ngày so với thời điểm thực tế.

Tại sao quan trọng trong SEO?

Crawl Stats giúp bạn hiểu rõ Googlebot có đang truy cập trang web của bạn một cách hiệu quả hay không — yếu tố nền tảng cho khả năng lập chỉ mục và xếp hạng. Nếu Googlebot thu thập quá ít hoặc quá nhiều trang, hoặc tải quá nhiều dữ liệu mà không cần thiết, điều đó có thể báo hiệu vấn đề kỹ thuật ảnh hưởng đến trải nghiệm người dùng hoặc tài nguyên máy chủ. Việc theo dõi đều đặn giúp phát hiện sớm các thay đổi bất thường như:

  • Giảm đột ngột số lần thu thập → có thể do lỗi server (5xx), chặn bot bằng robots.txt hoặc meta noindex
  • Tăng đột biến dung lượng tải → có thể do file lớn (video, PDF, ảnh không nén), redirect vòng lặp hoặc nội dung trùng lặp
  • Số lần thu thập ổn định nhưng tỷ lệ lập chỉ mục thấp → gợi ý nội dung bị chặn, thiếu internal link hoặc cấu trúc URL không tối ưu

Đây là công cụ chẩn đoán sơ cấp — không trực tiếp cải thiện thứ hạng, nhưng là bước bắt buộc để loại trừ nguyên nhân kỹ thuật gây cản trở SEO.

Cách hoạt động

Googlebot gửi yêu cầu HTTP GET tới các URL trên trang web bạn theo lịch trình tự động, dựa trên tín hiệu như độ phổ biến, tốc độ cập nhật nội dung, mức độ tin cậy và tài nguyên máy chủ (crawl budget). Mỗi lần kết nối thành công được ghi nhận trong Crawl Stats dưới dạng một crawl request. Dữ liệu tải về (tính bằng kilobyte) bao gồm toàn bộ phản hồi từ máy chủ: HTML, CSS, JavaScript, hình ảnh nhúng (nếu được crawl), và các tài nguyên cần thiết để render trang — nhưng không bao gồm tài nguyên từ miền bên ngoài (CDN, font, analytics script).

Google không tiết lộ thuật toán xác định crawl budget chi tiết. Tuy nhiên, các yếu tố đã được xác nhận gồm: tốc độ phản hồi máy chủ (TTFB), mã trạng thái HTTP trả về, số lượng redirect, và độ sâu liên kết nội bộ. Crawl Stats không phản ánh hành vi của Googlebot trên các trang bị chặn bằng noindex, robots.txt hoặc yêu cầu xác thực.

Hướng dẫn thực hiện

  1. Truy cập Google Search Console: Đăng nhập vào tài khoản GSC → chọn tài sản đúng (URL prefix hoặc Domain) → vào menu bên trái: Chẩn đoánCrawl Stats.
  2. Chọn khoảng thời gian: Mặc định là 90 ngày. Bạn có thể so sánh hai giai đoạn bằng nút So sánh để kiểm tra tác động sau khi cập nhật kỹ thuật (ví dụ: sau khi tối ưu server hoặc sửa robots.txt).
  3. Phân tích ba biểu đồ:
    • Số lần thu thập: Xem xu hướng tăng/giảm. Lưu ý các đỉnh cao bất thường (có thể do xuất bản loạt bài mới) hoặc thung lũng kéo dài (cần kiểm tra log server).
    • Dung lượng tải về: Đơn vị là KB. Giá trị cao hơn bình thường thường đi kèm với tăng số lần thu thập — nhưng nếu dung lượng tăng mà số lần không đổi, hãy kiểm tra kích thước trang (page size) và tài nguyên nặng.
    • Tần suất thu thập: Không phải số lần mỗi phút, mà là mật độ yêu cầu trên đơn vị thời gian (ví dụ: 100 yêu cầu/giờ). Biểu đồ này giúp đánh giá tính ổn định của crawl budget.
  4. Xuất dữ liệu: Nhấp vào biểu tượng tải xuống (↓) ở góc trên phải để lưu dưới dạng CSV. Dữ liệu bao gồm ngày, số lần thu thập, dung lượng tải (KB), và tần suất (yêu cầu/giờ).
  5. Kết hợp với báo cáo khác: So sánh với Hiệu suất (để kiểm tra tốc độ tải trang) và Lỗi lập chỉ mục (để xác minh xem trang bị thu thập có thực sự được lập chỉ mục hay không).

Lỗi thường gặp

Lỗi Dấu hiệu trong Crawl Stats Cách khắc phục
Server trả mã 5xx thường xuyên Giảm mạnh số lần thu thập + tăng dung lượng tải (do retry) Kiểm tra log server, nâng cấp hosting, bật caching, giảm tải PHP/DB
robots.txt chặn toàn bộ hoặc phần lớn site Số lần thu thập gần bằng 0, dung lượng tải ≈ 0 KB Đảm bảo robots.txt cho phép User-agent: Googlebot; kiểm tra bằng công cụ robots.txt Tester trong GSC
Nội dung động tạo URL vô hạn (ví dụ: bộ lọc sản phẩm) Tăng đột biến số lần thu thập + dung lượng tải cao, không tương xứng với số trang hữu ích Dùng rel="canonical", chặn URL không cần lập chỉ mục qua robots.txt hoặc noindex, giới hạn tham số trong GSC
Redirect vòng lặp hoặc chuỗi redirect dài Dung lượng tải tăng cao bất thường dù số lần thu thập không đổi Dùng công cụ kiểm tra redirect (ví dụ: Redirect Checker), chuyển sang redirect 301 ngắn gọn, loại bỏ redirect không cần thiết

Ví dụ thực tế

Một trang tin điện tử Việt Nam (tổng cộng ~15.000 bài) nhận thấy trong Crawl Stats: số lần thu thập giảm 60% trong 7 ngày liên tiếp, trong khi dung lượng tải tăng 25%. Kiểm tra log server phát hiện hàng loạt lỗi 504 Gateway Timeout do CDN không đồng bộ với origin server. Sau khi cấu hình lại CDN và thêm cache header cho trang danh mục, số lần thu thập phục hồi về mức trung bình 850–950 yêu cầu/ngày trong 3 ngày, và dung lượng tải giảm 18%. Đồng thời, số trang được lập chỉ mục tăng 12% trong báo cáo Lập chỉ mục > Trạng thái lập chỉ mục sau 10 ngày — chứng tỏ cải thiện crawl hiệu quả.

Câu hỏi thường gặp

Crawl Stats có cập nhật theo thời gian thực không?

Không. Dữ liệu được xử lý theo lô, chậm nhất sau 3–5 ngày so với thời điểm Googlebot thực hiện yêu cầu. Không có tính năng làm mới tức thì.

Một trang được thu thập nhiều lần có nghĩa là nó được lập chỉ mục tốt hơn?

Không nhất thiết. Lập chỉ mục phụ thuộc vào nhiều yếu tố: chất lượng nội dung, tín hiệu uy tín, cấu trúc liên kết và lệnh chặn. Một trang có thể bị thu thập 10 lần nhưng vẫn bị loại khỏi chỉ mục nếu chứa noindex hoặc vi phạm nguyên tắc chất lượng.

Có thể yêu cầu Googlebot thu thập trang nhiều hơn không?

Không thể yêu cầu trực tiếp. Bạn chỉ có thể tối ưu hóa để Googlebot ưu tiên thu thập: cải thiện tốc độ tải, giảm redirect, xây dựng internal link mạnh từ trang chủ hoặc trang có authority cao, và đảm bảo không có rào cản kỹ thuật. Tỷ lệ thu thập tăng lên là hệ quả của việc cải thiện các yếu tố này — không phải do yêu cầu thủ công.