Index Coverage
Tỷ lệ và trạng thái các URL được Google thu thập, phân tích và đưa vào cơ sở dữ liệu tìm kiếm, theo dõi qua Google Search Console.
Index Coverage là gì?
Index Coverage (tạm dịch: Phạm vi lập chỉ mục) là tính năng trong Google Search Console cho biết trạng thái và tỷ lệ các URL trên website của bạn đã được Google thu thập (crawl), phân tích và đưa vào cơ sở dữ liệu tìm kiếm — hay nói cách khác, đã được lập chỉ mục (indexed). Đây không phải là số lượng trang hiển thị trong kết quả tìm kiếm, mà là dữ liệu về việc Google có nhận diện, xử lý và lưu trữ URL đó trong hệ thống nội bộ hay không.
Tính năng này chia các URL thành 4 nhóm chính: Valid (hợp lệ), Valid with warnings (hợp lệ nhưng có cảnh báo), Excluded (bị loại trừ), và Error (lỗi). Mỗi nhóm phản ánh một giai đoạn cụ thể trong quy trình lập chỉ mục của Google.
Tại sao quan trọng trong SEO?
Index Coverage là chỉ số then chốt vì nó trực tiếp ảnh hưởng đến khả năng xuất hiện của trang web trên Google. Nếu một URL không được lập chỉ mục, dù nội dung tuyệt vời đến đâu, người dùng cũng không thể tìm thấy nó qua công cụ tìm kiếm. Điều này dẫn đến mất lưu lượng truy cập tự nhiên, giảm hiệu quả chiến lược SEO tổng thể.
Ngoài ra, theo dõi Index Coverage giúp phát hiện sớm các vấn đề kỹ thuật như:
- Trang bị chặn bởi robots.txt hoặc thẻ
noindexvô tình - URL trùng lặp gây phân tán quyền lực lập chỉ mục
- Lỗi máy chủ (5xx), chuyển hướng vòng lặp hoặc 404 sau khi đã crawl
- Sai cấu hình canonical hoặc hreflang
Google khuyến nghị chủ sở hữu website kiểm tra Index Coverage ít nhất mỗi tuần đối với site mới hoặc đang tối ưu mạnh, và mỗi tháng đối với site ổn định.
Cách hoạt động
Quy trình lập chỉ mục của Google gồm ba bước liên tiếp: crawl → render → index.
- Crawl: Bot Googlebot yêu cầu tải trang từ máy chủ. Nếu trả về mã trạng thái HTTP 200 và không bị chặn (robots.txt, meta noindex, login wall…), Google sẽ tiến hành bước tiếp theo.
- Render: Google phân tích HTML, JavaScript, CSS để hiểu nội dung thực tế (đặc biệt với trang dùng SSR hoặc CSR). Nếu gặp lỗi render (ví dụ: JS crash, timeout), trang có thể bị đánh dấu “Crawled – currently not indexed”.
- Index: Sau khi render thành công, Google quyết định xem trang có đủ tiêu chuẩn để đưa vào cơ sở dữ liệu tìm kiếm hay không — dựa trên độ độc đáo, giá trị thông tin, trải nghiệm người dùng và tuân thủ nguyên tắc Webmaster.
Index Coverage phản ánh kết quả cuối cùng của toàn bộ quy trình này, không phải chỉ riêng bước crawl.
Hướng dẫn thực hiện
Dưới đây là các bước kiểm tra và tối ưu Index Coverage trong Google Search Console (GSC):
- Đăng nhập GSC → Chọn tài sản đúng (URL prefix hoặc Domain property).
- Vào menu bên trái → Chọn Indexing > Pages (trước đây gọi là “Coverage”).
- Phân tích bảng trạng thái: Nhấp vào từng tab (Valid, Excluded, Errors) để xem danh sách URL và nguyên nhân chi tiết.
- Lọc theo nguyên nhân: Dùng bộ lọc “Reason” để tìm nhanh các lỗi phổ biến như “Submitted URL blocked by robots.txt”, “Duplicate without user-selected canonical”, hoặc “Soft 404”.
- Kiểm tra mẫu URL: Nhấp vào bất kỳ URL nào → chọn “Test live URL” để xem Googlebot thấy gì (HTML, mã trạng thái, thẻ meta, canonical…).
- Yêu cầu lập chỉ mục lại: Với URL hợp lệ nhưng chưa được index, nhấn “Request indexing”. Lưu ý: chỉ áp dụng cho URL mới hoặc vừa sửa lỗi — không dùng cho hàng loạt trang.
- Cập nhật sitemap: Đảm bảo file sitemap.xml chỉ chứa URL hợp lệ, không có link lỗi hoặc bị chặn, và gửi lại qua GSC.
Lỗi thường gặp
Dưới đây là 5 lỗi Index Coverage phổ biến nhất và cách khắc phục:
| Lỗi | Nguyên nhân chính | Cách khắc phục |
|---|---|---|
| Submitted URL blocked by robots.txt | URL xuất hiện trong sitemap nhưng bị chặn bởi quy tắc Disallow trong robots.txt | Sửa robots.txt để cho phép crawl, hoặc gỡ URL đó khỏi sitemap nếu không cần lập chỉ mục |
| Not found (404) | URL trả về mã 404 khi Googlebot truy cập — thường do xóa trang mà chưa thiết lập redirect | Khôi phục trang hoặc tạo redirect 301 tới trang tương đương; nếu không còn giá trị, giữ 404 nhưng đảm bảo có nội dung hữu ích trên trang lỗi |
| Crawled – currently not indexed | Google đã crawl nhưng chưa quyết định lập chỉ mục — thường do nội dung mỏng, trùng lặp, hoặc thiếu tín hiệu chất lượng | Tối ưu nội dung (độ dài, độc đáo, cấu trúc), thêm internal link, kiểm tra canonical, tăng tốc độ tải |
| Soft 404 | Trang trả về mã trạng thái 200 nhưng nội dung cho thấy “không tồn tại” (ví dụ: trang tìm kiếm rỗng, trang danh mục không có sản phẩm) | Chuyển sang trả mã 404 thật hoặc 410 nếu không còn giá trị; nếu vẫn cần giữ, bổ sung nội dung hữu ích và hướng dẫn người dùng |
| Discovered – currently not indexed | Google tìm thấy URL qua internal link nhưng chưa crawl — thường do hạn chế crawl budget hoặc link quá sâu | Tối ưu cấu trúc internal link, rút ngắn độ sâu URL, cải thiện tốc độ máy chủ, kiểm tra crawl stats trong GSC |
Ví dụ thực tế
Một website thương mại điện tử có 12.500 sản phẩm. Sau khi kiểm tra Index Coverage, họ phát hiện 3.200 URL ở trạng thái Excluded > Duplicate without user-selected canonical. Nguyên nhân: các biến thể màu/sizes tạo URL riêng nhưng thiếu thẻ rel="canonical" trỏ về phiên bản gốc.
Nhóm SEO đã triển khai trong 2 tuần:
- Thêm canonical tự động vào tất cả trang biến thể
- Gỡ 2.800 URL trùng lặp khỏi sitemap.xml
- Yêu cầu lập chỉ mục lại 400 trang chủ (category & product main)
Sau 10 ngày, số URL bị loại trừ giảm còn 412, và lưu lượng tìm kiếm tự nhiên tăng 27% so với tháng trước — chủ yếu từ các trang danh mục đã được index đúng.
Câu hỏi thường gặp
Index Coverage có giống với số trang hiển thị khi tìm “site:domain.com”?
Không hoàn toàn. Kết quả site:domain.com chỉ cho thấy một mẫu ngẫu nhiên các trang đã được index, không phải toàn bộ. Index Coverage trong GSC là dữ liệu chính xác hơn, được Google cung cấp trực tiếp từ hệ thống lập chỉ mục — tuy nhiên vẫn có độ trễ từ vài giờ đến vài ngày.
Một URL ở trạng thái “Valid” có nghĩa là nó sẽ xuất hiện trên Google?
Không. “Valid” chỉ nghĩa là URL đã được Google crawl và index thành công. Việc hiển thị trong kết quả tìm kiếm còn phụ thuộc vào hàng chục yếu tố xếp hạng như từ khóa, độ liên quan, uy tín domain, trải nghiệm người dùng… Một trang valid hoàn toàn có thể không xuất hiện nếu không đủ điều kiện xếp hạng.
Có nên yêu cầu lập chỉ mục cho tất cả URL trong tab “Excluded”?
Không. Phần lớn URL ở tab Excluded bị loại chủ đích — ví dụ: trang đăng nhập, trang giỏ hàng, trang in… Những URL này đúng ra không nên được lập chỉ mục. Chỉ yêu cầu indexing cho URL thuộc nhóm “Excluded” nếu bạn xác định rõ chúng bị loại nhầm — ví dụ: trang blog bị chặn bởi robots.txt do sai quy tắc, hoặc thiếu canonical.