Discovered – currently not indexed
Google phát hiện URL (qua liên kết bên ngoài hoặc sitemap) nhưng chưa thu thập và chưa lập chỉ mục.
Discovered – currently not indexed là gì?
"Discovered – currently not indexed" là trạng thái xuất hiện trong Google Search Console (GSC), báo hiệu rằng Google đã tìm thấy URL của bạn — qua liên kết từ trang khác, sitemap, hoặc các nguồn phát hiện tự động — nhưng chưa thu thập (crawl) và chưa đưa vào chỉ mục tìm kiếm. Đây không phải lỗi, cũng không phải cảnh báo khẩn cấp, mà là một trạng thái tạm thời trong quy trình lập chỉ mục của Google.
URL ở trạng thái này tồn tại trong hệ thống phát hiện của Google, nhưng chưa được xử lý sâu: không có dữ liệu nội dung, không có đánh giá chất lượng, không xuất hiện trong kết quả tìm kiếm — dù người dùng hay công cụ có thể truy cập trực tiếp bằng đường dẫn.
Tại sao quan trọng trong SEO?
Trạng thái này quan trọng vì nó phản ánh hiệu quả đầu vào của quy trình lập chỉ mục. Nếu nhiều URL thiết yếu (ví dụ: trang sản phẩm mới, bài blog quan trọng) nằm lâu ở trạng thái "Discovered – currently not indexed", nghĩa là cơ hội hiển thị trên Google đang bị bỏ lỡ. Điều này ảnh hưởng trực tiếp đến lưu lượng tìm kiếm tự nhiên, khả năng cạnh tranh và ROI của chiến lược nội dung.
Ngược lại, việc theo dõi và tối ưu hóa nhóm URL này giúp bạn:
- Nắm bắt sớm các rào cản kỹ thuật trước khi chúng lan rộng
- Phát hiện sớm các vấn đề về cấu trúc liên kết hoặc sitemap
- Ưu tiên tài nguyên crawl cho những trang có giá trị cao
- Đánh giá tính hợp lý của chiến lược nội dung và phân bổ link equity
Cách hoạt động
Google phát hiện URL qua ba kênh chính: (1) liên kết từ trang bên ngoài (backlink), (2) tệp sitemap.xml được gửi qua GSC, (3) khám phá ngẫu nhiên khi bot duyệt các trang đã biết. Khi phát hiện, Google ghi nhận URL vào hàng đợi crawl — nhưng không crawl ngay.
Việc crawl phụ thuộc vào nhiều yếu tố: giới hạn crawl budget (tùy theo tốc độ máy chủ, độ tin cậy trang, tần suất cập nhật), mức độ ưu tiên của URL (dựa trên liên kết nội bộ, độ sâu đường dẫn, tín hiệu chất lượng), và tình trạng kỹ thuật (robots.txt, meta robots, HTTP status). Nếu URL không đạt tiêu chuẩn để crawl hoặc bị trì hoãn quá lâu, nó sẽ giữ nguyên trạng thái "Discovered – currently not indexed".
Hướng dẫn thực hiện
Dưới đây là quy trình kiểm tra và xử lý nhóm URL ở trạng thái này trong Google Search Console:
- Vào GSC > Trình xem xét URL > chọn tab "Coverage" → lọc theo trạng thái "Discovered – currently not indexed"
- Xuất danh sách URL (dùng nút Export hoặc API nếu cần số lượng lớn)
- Phân loại theo nhóm nguyên nhân (xem bảng dưới)
- Kiểm tra thủ công từng nhóm: kiểm tra robots.txt, thẻ
noindex, HTTP status (404/5xx), tốc độ tải, lỗi JavaScript chặn render - Chỉnh sửa & gửi yêu cầu kiểm tra lại: nếu đã sửa lỗi, dùng tính năng "Request indexing" cho tối đa 10 URL/lần (chỉ áp dụng với URL đã crawl thành công trước đó)
- Theo dõi sau 3–7 ngày: kiểm tra lại trạng thái trong Coverage report và kiểm tra sự xuất hiện trên Google bằng truy vấn
site:domain.com/url-path
Lỗi thường gặp
Dưới đây là các nguyên nhân phổ biến khiến URL bị kẹt ở trạng thái "Discovered – currently not indexed", kèm cách khắc phục:
| Nguyên nhân | Dấu hiệu nhận biết | Cách khắc phục |
|---|---|---|
| URL bị chặn bởi robots.txt | GSC báo "Crawled – currently not indexed" hoặc "Discovered – currently not indexed" + kiểm tra robots.txt thấy dòng Disallow tương ứng |
Sửa robots.txt hoặc dùng Allow cụ thể; kiểm tra bằng công cụ robots testing tool trong GSC |
Thẻ noindex hoặc header X-Robots-Tag: noindex |
URL trả về HTTP 200 nhưng có thẻ <meta name="robots" content="noindex"> hoặc header tương đương |
Xóa thẻ hoặc header; đảm bảo không bị chèn nhầm qua plugin/theme/CMS |
| Liên kết nội bộ yếu hoặc thiếu | URL chỉ được phát hiện qua sitemap hoặc backlink bên ngoài, không có liên kết từ trang chủ hoặc danh mục | Thêm liên kết nội bộ từ ít nhất 2–3 trang có độ tin cậy cao; ưu tiên vị trí dễ thấy (menu, sidebar, bài viết liên quan) |
| URL trùng lặp hoặc tham số không cần thiết | Nhiều phiên bản URL giống nhau (ví dụ: ?utm_source=…, ?sort=price) xuất hiện trong sitemap | Loại khỏi sitemap; dùng rel="canonical" hoặc cấu hình tham số trong GSC |
Ví dụ thực tế
Một cửa hàng điện máy Việt Nam ra mắt loạt sản phẩm mới vào tháng 4/2024. Họ gửi sitemap chứa 200 URL sản phẩm, nhưng sau 10 ngày, 67 URL vẫn ở trạng thái "Discovered – currently not indexed". Kiểm tra sâu cho thấy:
- 42 URL bị chặn bởi robots.txt do cấu hình sai regex (ví dụ:
Disallow: /san-pham/thay vìDisallow: /san-pham/*) - 18 URL có thẻ
noindexdo plugin SEO tự động bật chế độ "draft preview" cho sản phẩm chưa xuất bản - 7 URL còn lại có tốc độ tải > 8s trên di động và bị Google xếp hạng ưu tiên thấp
Sau khi điều chỉnh robots.txt, tắt noindex và tối ưu hình ảnh, 92% số URL được crawl và lập chỉ mục trong vòng 48 giờ. Lưu lượng tìm kiếm cho nhóm sản phẩm tăng 31% sau 2 tuần.
Câu hỏi thường gặp
Discovered – currently not indexed có phải lỗi không?
Không. Đây là trạng thái trung lập, không phải lỗi kỹ thuật. Google chỉ thông báo rằng URL đã được phát hiện nhưng chưa đủ điều kiện để crawl hoặc chưa đến lượt xử lý. Tuy nhiên, nếu kéo dài trên 4 tuần với URL quan trọng, cần can thiệp.
Có nên yêu cầu lập chỉ mục (Request indexing) cho URL ở trạng thái này không?
Không hiệu quả. Tính năng "Request indexing" chỉ hoạt động với URL đã được Google crawl thành công (trạng thái "Crawled – currently not indexed" hoặc "Valid" trong Coverage). Với URL chưa crawl, yêu cầu sẽ bị bỏ qua. Trước tiên cần đảm bảo URL có thể crawl được.
Thời gian trung bình để URL chuyển từ "Discovered" sang "Indexed" là bao lâu?
Tùy trường hợp. Với trang có độ tin cậy cao, liên kết nội bộ mạnh và không có rào cản kỹ thuật: từ vài giờ đến 3 ngày. Với trang mới, domain non-authority hoặc có vấn đề về crawl budget: từ 1–4 tuần. Có thể thay đổi tùy theo tần suất cập nhật nội dung và lịch crawl thực tế của Googlebot.