SEO Tools & Software

Indexability Report

Báo cáo đánh giá khả năng được lập chỉ mục của từng URL dựa trên robots.txt, meta robots, HTTP status và các yếu tố kỹ thuật khác.

3 lượt xem Cập nhật: 26/05/2026

Indexability Report là gì?

Indexability Report (Báo cáo khả năng lập chỉ mục) là một công cụ phân tích kỹ thuật giúp xác định xem từng URL trên website có thể được công cụ tìm kiếm như Google thu thập và đưa vào cơ sở dữ liệu hay không. Báo cáo này kiểm tra đồng thời nhiều yếu tố ảnh hưởng trực tiếp đến quá trình lập chỉ mục, bao gồm: tập tin robots.txt, thẻ meta robots trong phần <head>, mã trạng thái HTTP (status code), thẻ canonical, chuyển hướng (redirect), và các tín hiệu khác như X-Robots-Tag trong header HTTP.

Khác với báo cáo crawl thông thường, Indexability Report không chỉ nói "trang có bị crawl hay không", mà trả lời rõ ràng: "trang này có được index không — và vì sao?". Kết quả thường được phân loại thành các nhóm: Indexable (có thể lập chỉ mục), Blocked (bị chặn), Redirected (đang chuyển hướng), Soft 404, hoặc Noindex detected.

Tại sao quan trọng trong SEO?

Một trang dù được thiết kế đẹp, nội dung chất lượng cao và tối ưu từ khóa tốt — nhưng nếu không được lập chỉ mục, thì hoàn toàn không xuất hiện trong kết quả tìm kiếm. Đây là lý do Indexability Report trở thành bước kiểm tra bắt buộc trước khi triển khai chiến dịch SEO quy mô lớn hoặc sau mỗi lần cập nhật cấu trúc website.

Nó giúp phát hiện sớm những rủi ro vô hình như:

  • Trang sản phẩm mới bị vô tình chặn bởi robots.txt do lỗi regex;
  • Trang danh mục cũ vẫn tồn tại nhưng chứa thẻ <meta name="robots" content="noindex"> do quên gỡ sau khi test;
  • URL bị redirect vòng (redirect chain) khiến Googlebot bỏ qua hoàn toàn;
  • Trang trả về mã 200 nhưng thực tế là trang lỗi (soft 404), gây lãng phí tài nguyên crawl.

Theo dữ liệu từ Ahrefs và Screaming Frog (cập nhật 2023–2024), khoảng 12–18% các website thương mại điện tử có từ 5–20% URL bị chặn hoặc không thể index do lỗi cấu hình kỹ thuật — đa số đều phát hiện được qua Indexability Report.

Cách hoạt động

Indexability Report không dựa trên dữ liệu từ Google Search Console (GSC) mà thực hiện kiểm tra chủ động bằng cách:

  1. Crawl sâu từng URL theo cấu hình người dùng (tối đa độ sâu nhất định, giới hạn số trang);
  2. Kiểm tra đồng thời nhiều lớp bảo vệ: đầu tiên là robots.txt (xem có rule nào cấm truy cập đường dẫn đó không), sau đó là phản hồi HTTP (status code), rồi mới đến nội dung HTML (thẻ meta robots, canonical), và cuối cùng là header HTTP (X-Robots-Tag);
  3. Áp dụng thứ tự ưu tiên theo chuẩn của Google: nếu robots.txt chặn, thì dù trang có thẻ index,follow, nó vẫn bị coi là blocked; nếu X-Robots-Tag: noindex xuất hiện trong header, nó sẽ ghi đè lên thẻ meta robots trong HTML.

Lưu ý: Một số công cụ (như DeepCrawl) còn tích hợp kiểm tra index coverage thực tế từ GSC để so sánh chéo — nhưng điều này chỉ mang tính tham khảo, vì dữ liệu GSC luôn chậm hơn 2–7 ngày so với thực tế.

Hướng dẫn thực hiện

Dưới đây là quy trình chuẩn để chạy và đọc Indexability Report hiệu quả:

  1. Chuẩn bị dữ liệu đầu vào: Xuất danh sách URL cần kiểm tra (từ sitemap, log server, hoặc crawl trước đó). Đảm bảo không vượt quá giới hạn hàng nghìn URL nếu dùng phiên bản miễn phí.
  2. Cấu hình crawl: Thiết lập user-agent (nên dùng Googlebot), bật kiểm tra robots.txt, header HTTP và JavaScript (nếu trang phụ thuộc vào JS để render meta).
  3. Chạy báo cáo: Thời gian phụ thuộc vào số URL và tốc độ máy chủ. Với 10.000 URL, mất từ 5–20 phút trên công cụ như Sitebulb hoặc Screaming Frog.
  4. Phân tích kết quả: Tập trung vào các cột chính: URL, Status Code, Robots.txt Rule, Meta Robots, X-Robots-Tag, Canonical, Indexability Status.
  5. Xuất và xử lý: Lọc các URL có trạng thái Blocked hoặc Noindex, đối chiếu với mục tiêu kinh doanh (ví dụ: trang sản phẩm KHÔNG được chặn), rồi lên kế hoạch sửa lỗi.

Lỗi thường gặp

Dưới đây là 4 lỗi phổ biến nhất và cách khắc phục cụ thể:

Lỗi Dấu hiệu nhận biết Cách khắc phục
robots.txt chặn nhầm URL hiển thị Blocked by robots.txt, dù không nằm trong mục tiêu chặn Sửa rule trong robots.txt; kiểm tra bằng Công cụ kiểm tra robots.txt của Google Search Console
Thẻ meta robots mâu thuẫn Trang có cả noindexindex trong cùng một thẻ, hoặc có nhiều thẻ meta robots Giữ duy nhất một thẻ <meta name="robots" content="index,follow"> trong phần <head>; loại bỏ tất cả thẻ trùng lặp
Soft 404 URL trả về mã 200 nhưng nội dung là "Không tìm thấy" hoặc trống Chuyển sang trả mã 404 thật, hoặc cải thiện nội dung trang để đảm bảo giá trị; thêm liên kết nội bộ phù hợp
Redirect loop hoặc chuỗi dài Báo cáo ghi Redirected (301) nhưng không cho biết đích cuối cùng, hoặc có hơn 5 bước chuyển hướng Rút gọn chuỗi redirect; đảm bảo mỗi URL chỉ chuyển hướng tối đa 1 lần tới đích cuối cùng

Ví dụ thực tế

Một website bán hàng thời trang Việt Nam (domain: shopthoitrang.vn) sau khi nâng cấp CMS đã vô tình thêm dòng sau vào robots.txt:

User-agent: *
Disallow: /product/
Disallow: /category/

Kết quả Indexability Report cho thấy 92% trang sản phẩm và 87% trang danh mục bị gán nhãn Blocked by robots.txt. Sau khi sửa thành Disallow: /product/temp/Disallow: /category/archive/, tỷ lệ URL indexable tăng từ 63% lên 98% trong vòng 3 ngày — và lượng traffic từ tìm kiếm tăng 41% sau 2 tuần (theo dữ liệu Google Analytics và GSC).

Một ví dụ khác: Trang blog có thẻ <meta name="robots" content="noindex,follow"> do đang ở chế độ thử nghiệm. Indexability Report phát hiện lỗi ngay khi crawl — giúp đội SEO gỡ thẻ trước khi trang được chia sẻ rộng rãi, tránh mất cơ hội index sớm.

Câu hỏi thường gặp

Indexability Report có giống với Coverage Report trong Google Search Console không?

Không. Coverage Report trong GSC cho biết Google đã index gì (dữ liệu hậu kỳ, phản ánh thực tế), còn Indexability Report dự đoán Google CÓ THỂ index gì (dữ liệu tiền kỳ, dựa trên cấu hình kỹ thuật). Hai báo cáo bổ trợ nhau, nhưng không thay thế được.

Cần chạy Indexability Report bao lâu một lần?

Với website ổn định: mỗi quý. Với website thường xuyên cập nhật cấu trúc, thêm trang mới hoặc thay đổi CMS: sau mỗi đợt triển khai lớn — và trước mỗi chiến dịch content mới. Không có tần suất cố định; tùy trường hợp.

Công cụ nào hỗ trợ Indexability Report tốt nhất?

Các công cụ chuyên sâu như Screaming Frog SEO Spider, Sitebulb, DeepCrawlOnCrawl đều hỗ trợ đầy đủ. Phiên bản miễn phí của Screaming Frog giới hạn 500 URL; Sitebulb có bản dùng thử 30 ngày. Công cụ miễn phí như Bing Webmaster Tools có tính năng tương tự nhưng thiếu chi tiết kỹ thuật (ví dụ: không kiểm tra X-Robots-Tag). Có thể thay đổi theo nhu cầu và ngân sách.