Technical SEO

Crawl Errors

Các vấn đề ngăn crawler truy cập thành công vào URL, như 404, 5xx, hoặc timeout, được báo cáo trong công cụ quản trị website.

3 lượt xem Cập nhật: 29/05/2026

Crawl Errors là gì?

Crawl Errors (lỗi thu thập) là những sự cố xảy ra khi công cụ tìm kiếm — như Googlebot — không thể truy cập, tải hoặc phân tích một URL trên website của bạn. Đây không phải lỗi hiển thị cho người dùng, mà là lỗi kỹ thuật được ghi nhận trong quá trình bot quét (crawl) trang. Các dạng phổ biến nhất gồm: mã trạng thái HTTP 404 (không tìm thấy), 5xx (lỗi máy chủ), chuyển hướng vòng lặp (redirect loop), timeout (kết nối chậm hoặc ngắt giữa chừng), và URL bị chặn bởi robots.txt.

Tại sao quan trọng trong SEO?

Khi Googlebot gặp lỗi khi thu thập, nó không thể hiểu nội dung trang đó — dẫn đến khả năng trang không được lập chỉ mục (index), hoặc bị loại khỏi kết quả tìm kiếm. Nếu nhiều URL quan trọng (ví dụ: trang sản phẩm, bài blog mới) liên tục báo lỗi crawl, hiệu suất xếp hạng tổng thể có thể suy giảm. Ngoài ra, các lỗi nghiêm trọng như 500 hay timeout kéo dài còn làm giảm crawl budget — tức lượng tài nguyên Google dành để quét website bạn mỗi lần — khiến các trang mới hoặc cập nhật khó được phát hiện kịp thời.

Cách hoạt động

Googlebot gửi yêu cầu HTTP tới từng URL theo lịch trình dựa trên độ tin cậy, tần suất cập nhật và cấu trúc liên kết nội bộ. Khi nhận phản hồi từ máy chủ, bot kiểm tra:

  • Mã trạng thái HTTP (200, 301, 404, 503…)
  • Thời gian phản hồi (nếu vượt ~3–5 giây thường bị ghi nhận là timeout)
  • Header và nội dung trả về (ví dụ: có chứa thẻ noindex, bị chặn bởi robots.txt, hoặc redirect không hợp lệ)
  • Tính toàn vẹn của HTML (ví dụ: cú pháp hỏng gây lỗi phân tích)

Những trường hợp không đáp ứng tiêu chuẩn xử lý sẽ được lưu vào báo cáo Crawl Errors trong Google Search Console (GSC). Lưu ý: GSC chỉ báo cáo lỗi mà bot thực sự gặp — không phải tất cả URL bị 404 đều xuất hiện ở đây nếu chưa từng được bot thử truy cập.

Hướng dẫn thực hiện

  1. Truy cập Google Search Console: Vào phần Crawl > Crawl Errors (hoặc URL Inspection > Coverage với giao diện mới).
  2. Lọc theo loại lỗi: Phân biệt Not found (404), Server errors (5xx), Access denied, Not followed, Soft 404.
  3. Xác định nguồn gốc: Dùng tab Linked from để xem URL nào liên kết tới trang lỗi — giúp phát hiện liên kết hỏng trong nội dung, menu, sitemap hoặc backlink ngoài.
  4. Phân loại mức độ ưu tiên: Tập trung trước vào các URL có lưu lượng tìm kiếm cao (kiểm tra qua Performance report), hoặc URL quan trọng trong cấu trúc site (trang danh mục, trang chủ, trang sản phẩm).
  5. Sửa hoặc xử lý phù hợp: Chuyển hướng 301 nếu URL cũ đã di chuyển; khôi phục trang nếu bị xóa nhầm; tối ưu server nếu lỗi 5xx; cập nhật sitemap và internal link nếu cần.
  6. Xác minh lại: Sau khi sửa, dùng công cụ URL Inspection để yêu cầu Googlebot thu thập lại, hoặc chờ chu kỳ crawl tự nhiên (thường từ vài giờ đến vài ngày).

Lỗi thường gặp

Lỗi Nguyên nhân chính Cách khắc phục
404 Not Found URL bị xóa, đổi tên, hoặc nhập sai trong liên kết nội bộ/external Khôi phục trang nếu còn giá trị; nếu không, thiết lập 301 tới trang tương đương; cập nhật tất cả liên kết trỏ tới URL lỗi
500 Internal Server Error Lỗi kịch bản PHP, cấu hình Apache/Nginx sai, plugin xung đột (với WordPress), hoặc hết tài nguyên máy chủ Kiểm tra file log lỗi máy chủ (error_log); tắt plugin từng cái để xác định nguyên nhân; nâng cấp PHP hoặc tăng memory_limit nếu cần
503 Service Unavailable Máy chủ tạm ngừng hoạt động (maintenance mode), quá tải, hoặc cấu hình CDN sai Đảm bảo 503 chỉ dùng ngắn hạn; kiểm tra thời gian Retry-After header; tránh dùng 503 cho downtime dài hơn 24 giờ
Timeout Trang tải quá chậm (>5s), hosting yếu, hoặc có script chặn render (ví dụ: JS nặng, API chậm) Tối ưu tốc độ: nén ảnh, bật cache, giảm số request, kiểm tra TTFB; dùng rel="preload" cho tài nguyên quan trọng
Soft 404 Trang trả mã 200 nhưng nội dung trống, toàn thông báo “Không tìm thấy”, hoặc nội dung không liên quan Chuyển sang trả mã 404 thực hoặc 410 nếu không còn giá trị; nếu giữ lại, đảm bảo nội dung đầy đủ và hữu ích

Ví dụ thực tế

Một cửa hàng thời trang Việt Nam đổi hệ thống quản lý sản phẩm, dẫn đến tất cả URL sản phẩm cũ (dạng /san-pham/ao-thun-mau-do-123) bị xóa mà không thiết lập chuyển hướng. Trong vòng 3 ngày, Google Search Console báo hơn 1.200 lỗi Not found, trong đó 47 URL từng nằm trong top 10 tìm kiếm từ khóa “áo thun nam Hà Nội”. Đội SEO nhanh chóng triển khai 301 từ các URL cũ sang trang danh mục tương ứng, đồng thời cập nhật sitemap và gửi lại qua GSC. Sau 6 ngày, số lỗi giảm còn 89, và 92% URL đã được lập chỉ mục lại. Lưu lượng tìm kiếm nhóm từ này phục hồi 83% so với mức trước khi xảy ra lỗi.

Câu hỏi thường gặp

Crawl Errors có ảnh hưởng trực tiếp đến thứ hạng không?

Không trực tiếp — Google không phạt website vì có lỗi crawl. Nhưng gián tiếp thì có: nếu trang quan trọng không được lập chỉ mục do lỗi, nó sẽ không xuất hiện trong kết quả tìm kiếm, dẫn đến mất lưu lượng và ảnh hưởng thứ hạng tổng thể. Lỗi 404 đơn lẻ không sao, nhưng hàng trăm URL quan trọng bị 404 hoặc timeout thì rất nguy hiểm.

Có nên sửa tất cả Crawl Errors không?

Không cần — chỉ ưu tiên các URL có giá trị: đang có lưu lượng tìm kiếm, được liên kết nhiều, hoặc nằm trong cấu trúc điều hướng chính. Các URL lỗi từ backlink spam, URL test, hoặc trang cũ không còn nhu cầu có thể bỏ qua hoặc dùng 410 Gone để thông báo rõ ràng cho Google.

“Crawl Errors” trong Google Search Console có còn tồn tại không?

Từ năm 2018, Google đã thay thế báo cáo cũ bằng Coverage report trong giao diện mới của Search Console. Các lỗi crawl giờ được nhóm trong tab ErrorsValid with warnings. Tuy nhiên, khái niệm và cách xử lý vẫn giữ nguyên — chỉ khác về vị trí hiển thị và cách phân loại.