Google Search Console

Excluded URLs

URL bị Google chủ động loại khỏi lập chỉ mục do nguyên nhân như noindex, bị chặn bởi robots.txt, hoặc trùng lặp.

3 lượt xem Cập nhật: 30/05/2026

Excluded URLs là gì?

Excluded URLs (URL bị loại trừ) là những địa chỉ web mà Google đã thu thập (crawl) nhưng chủ động không đưa vào kết quả tìm kiếm — tức là không lập chỉ mục (not indexed). Đây không phải lỗi kỹ thuật, mà là hành động có chủ đích của Google dựa trên tín hiệu do bạn hoặc hệ thống cung cấp.

Các nguyên nhân phổ biến khiến một URL xuất hiện trong báo cáo Excluded URLs trong Google Search Console (GSC) bao gồm:

  • Được gắn thẻ <meta name="robots" content="noindex"> hoặc X-Robots-Tag: noindex trong HTTP header;
  • Bị chặn bởi tệp robots.txt ở bước thu thập (crawl), nên Google không thể truy cập để đọc nội dung và kiểm tra thẻ noindex;
  • Là bản sao trùng lặp (duplicate) của một URL khác, và Google chọn URL gốc làm phiên bản chính để lập chỉ mục;
  • Chưa đủ chất lượng hoặc độ tin cậy để được xếp hạng (ví dụ: trang mỏng, thiếu nội dung độc đáo, không có liên kết nội bộ hỗ trợ);
  • URL bị đánh dấu "Soft 404" (trang trả về mã trạng thái 200 nhưng nội dung cho thấy không tồn tại).

Lưu ý: Một URL xuất hiện trong Excluded URLs không đồng nghĩa với việc bị phạt. Phần lớn trường hợp là do thiết lập chủ động hoặc quy trình chuẩn hoá tự nhiên của Google.

Tại sao quan trọng trong SEO?

Việc hiểu và kiểm soát danh sách Excluded URLs giúp bạn:

  • Phát hiện sai sót vô tình: Ví dụ, bạn đặt noindex lên trang sản phẩm vì nhầm lẫn — điều này sẽ làm mất toàn bộ lưu lượng tìm kiếm từ trang đó.
  • Tối ưu ngân sách thu thập (crawl budget): Nếu Google dành thời gian crawl hàng trăm trang noindex hoặc bị chặn bởi robots.txt, các trang quan trọng hơn có thể bị bỏ sót.
  • Đảm bảo chiến lược nội dung đúng hướng: Bạn cần biết rõ trang nào đang được lập chỉ mục, trang nào bị loại — để điều chỉnh thẻ meta, cấu trúc liên kết hoặc chiến lược định hướng người dùng.
  • Tránh xung đột chuẩn hoá: Khi nhiều phiên bản URL (có tham số, www/non-www, HTTP/HTTPS) cùng tồn tại, Google có thể loại trừ sai phiên bản — gây tổn thất thứ hạng.

Cách hoạt động

Quy trình Google xử lý một URL trước khi quyết định lập chỉ mục gồm 3 bước chính:

  1. Crawl: Bot Googlebot gửi yêu cầu HTTP đến URL. Nếu robots.txt chặn, quá trình dừng ngay tại đây — URL được ghi nhận là "Blocked by robots.txt".
  2. Render & phân tích: Nếu được phép truy cập, Googlebot tải HTML, chạy JavaScript (nếu cần), đọc thẻ meta, header, nội dung và liên kết.
  3. Đánh giá & quyết định lập chỉ mục: Dựa trên tín hiệu như noindex, trùng lặp, chất lượng nội dung, trải nghiệm người dùng… Google chọn giữ hoặc loại trừ URL khỏi chỉ mục.

Mỗi nguyên nhân loại trừ sẽ hiển thị một mã trạng thái riêng trong GSC — giúp bạn chẩn đoán nhanh.

Hướng dẫn thực hiện

Dưới đây là các bước kiểm tra và quản lý Excluded URLs trong Google Search Console:

  1. Vào GSC → Chọn tài sản → Mở menu bên trái → IndexingPages → Nhấp vào tab Excluded.
  2. Lọc theo nguyên nhân: Sử dụng bộ lọc Reason để xem từng nhóm: Blocked by robots.txt, Discovered – currently not indexed, Submitted URL marked 'noindex', Duplicate without user-selected canonical
  3. Kiểm tra mẫu URL: Nhấp vào bất kỳ URL nào → chọn Test live URL để xem Googlebot thấy gì (HTML thực tế, thẻ meta, mã trạng thái HTTP).
  4. Chỉnh sửa nếu cần:
    • Nếu muốn lập chỉ mục lại: xoá thẻ noindex, mở quyền trong robots.txt, thêm canonical hợp lệ, hoặc cải thiện nội dung.
    • Nếu muốn giữ trạng thái loại trừ: đảm bảo nhất quán (ví dụ: tất cả trang category đều có noindex nếu không định tối ưu cho tìm kiếm).
  5. Gửi yêu cầu lập chỉ mục lại: Sau khi sửa, dùng công cụ URL Inspection → nhấn Request indexing. Lưu ý: chỉ áp dụng với URL đã được crawl và không còn rào cản.

Lỗi thường gặp

Dưới đây là 4 lỗi phổ biến và cách khắc phục:

  • Lỗi: Tất cả trang blog đều bị ghi là "Crawled – currently not indexed" dù không có noindex
    → Kiểm tra robots.txt xem có dòng Disallow: /blog/ hoặc User-agent: * Disallow: / vô tình. Sửa và gửi lại để Google thu thập lại.
  • Lỗi: Trang sản phẩm hiển thị "Duplicate without user-selected canonical"
    → Thêm thẻ <link rel="canonical" href="https://example.com/san-pham-a"> vào tất cả phiên bản (có tham số, mobile, HTTPS/HTTP) để chỉ định phiên bản chính.
  • Lỗi: Trang trả về mã 200 nhưng nội dung là "Không tìm thấy" hoặc form tìm kiếm trống
    → Sửa thành trang 404 thật (mã trạng thái HTTP 404) hoặc 410 (đã xoá vĩnh viễn), hoặc bổ sung nội dung hữu ích để tránh nhãn Soft 404.
  • Lỗi: Trang admin, login, cart… vô tình bị submit qua sitemap
    → Loại các URL không định lập chỉ mục ra khỏi sitemap.xml, đồng thời thêm noindex và chặn trong robots.txt nếu cần.

Ví dụ thực tế

Một website thương mại điện tử có cấu trúc:

  • https://site.vn/san-pham/ao-thun?color=do&size=L
  • https://site.vn/san-pham/ao-thun?color=xanh&size=M
  • https://site.vn/san-pham/ao-thun (URL gốc, có nội dung đầy đủ)

Google thu thập cả 3 URL, nhưng chỉ lập chỉ mục URL gốc vì hai URL còn lại là bản sao với tham số. Trong GSC, hai URL có tham số xuất hiện trong Excluded URLs với lý do Duplicate, submitted URL not selected as canonical. Giải pháp: thêm thẻ canonical trỏ về URL gốc trên cả hai trang con → Google sẽ loại trừ đúng cách và tập trung sức mạnh lập chỉ mục vào phiên bản chính.

Câu hỏi thường gặp

Excluded URLs có ảnh hưởng đến thứ hạng của trang khác không?

Không trực tiếp. Tuy nhiên, nếu các URL bị loại trừ là trang con quan trọng (ví dụ: bài viết chi tiết, trang so sánh) và không có liên kết nội bộ hợp lý tới trang cha, thì khả năng phân phối link equity và chủ đề sẽ bị suy giảm — gián tiếp ảnh hưởng đến thứ hạng tổng thể.

Tôi nên loại trừ bao nhiêu URL là hợp lý?

Không có con số cố định. Website lớn có thể có hàng nghìn URL bị loại trừ hợp lý (ví dụ: trang in, trang filter, trang đăng nhập). Điều quan trọng là tỷ lệ URL được lập chỉ mục / tổng số URL có giá trị phải cao. Nếu hơn 30% trang nội dung quan trọng bị loại trừ — cần rà soát ngay.

Excluded URLs có tự biến mất sau khi sửa không?

Có thể, nhưng không tự động. Sau khi sửa (ví dụ: xoá noindex), Google phải thu thập lại URL đó mới cập nhật trạng thái. Thời gian phụ thuộc vào tần suất crawl — từ vài ngày đến vài tuần. Bạn có thể đẩy nhanh bằng Request indexing, nhưng chỉ với URL đã được crawl gần đây.

Lý do loại trừ trong GSC Nguyên nhân kỹ thuật Cách kiểm tra nhanh Thời gian cập nhật sau sửa
Blocked by robots.txt URL bị chặn ở bước crawl Dùng công cụ robots.txt Tester trong GSC 1–7 ngày (phụ thuộc crawl budget)
Submitted URL marked 'noindex' Thẻ meta hoặc header chứa noindex Dùng URL Inspection → xem phần robots meta tag 3–14 ngày (sau khi crawl lại)
Duplicate without user-selected canonical Thiếu thẻ canonical hoặc mâu thuẫn So sánh HTML của các phiên bản URL Tùy trường hợp — thường 1–4 tuần
Crawled – currently not indexed Google thu thập được nhưng chưa quyết định Kiểm tra chất lượng nội dung, tốc độ tải, trải nghiệm di động Có thể thay đổi — không xác định