Robots.txt Tester
Công cụ kiểm tra cú pháp và hiệu lực của tập tin robots.txt đối với từng URL trong miền.
Robots.txt Tester là gì?
Robots.txt Tester là công cụ kiểm tra trực tuyến trong Google Search Console (GSC) giúp chủ sở hữu website xác minh cú pháp, cấu trúc và hiệu lực của tập tin robots.txt đối với từng URL cụ thể trên miền. Công cụ này không chỉ kiểm tra xem tập tin có hợp lệ về mặt cú pháp hay không, mà còn mô phỏng cách Googlebot đọc và áp dụng các quy tắc Allow, Disallow, User-agent, Sitemap — từ đó cho biết URL nào bị chặn hoặc được phép lập chỉ mục.
Tại sao quan trọng trong SEO?
Việc sai sót trong robots.txt có thể vô tình chặn toàn bộ trang chủ, trang sản phẩm, hoặc tệp CSS/JS — dẫn đến:
- Mất khả năng lập chỉ mục: Google không thu thập được nội dung dù trang có chất lượng cao;
- Hư hỏng trải nghiệm người dùng: nếu file CSS/JS bị chặn, trang hiển thị lỗi hoặc thiếu định dạng;
- Ảnh hưởng đến tốc độ lập chỉ mục: chậm crawl → chậm xuất hiện trên kết quả tìm kiếm;
- Không phát hiện sớm khi thay đổi cấu trúc website (ví dụ: chuyển sang HTTPS, thêm subdomain).
Robots.txt Tester giúp phát hiện lỗi trước khi chúng ảnh hưởng đến dữ liệu thực tế — đặc biệt quan trọng với website lớn, đa ngôn ngữ hoặc có nhiều môi trường (staging, production).
Cách hoạt động
Công cụ hoạt động bằng cách:
- Đọc nội dung
robots.txttừ miền đang được xác minh trong Search Console; - Phân tích cú pháp theo tiêu chuẩn Robots Exclusion Protocol (không hỗ trợ
noindex,nofollow— những thẻ này phải đặt trong HTML hoặc HTTP header); - Mô phỏng yêu cầu crawl của
Googlebot(hoặcGooglebot-Image,Googlebot-Newstùy chọn) với URL bạn nhập; - Trả về kết quả: Cho phép, Bị chặn, hoặc Không rõ — kèm giải thích chi tiết quy tắc nào đã áp dụng.
Lưu ý: Công cụ chỉ phản ánh cách Google hiểu robots.txt tại thời điểm kiểm tra — không kiểm tra hiệu lực của robots.txt trên các công cụ tìm kiếm khác như Bing hay Yandex.
Hướng dẫn thực hiện
Dưới đây là các bước sử dụng Robots.txt Tester trong Google Search Console (phiên bản mới nhất tính đến tháng 06/2024):
- Đăng nhập vào Google Search Console và chọn đúng tài sản (URL-prefix hoặc Domain) đã được xác minh;
- Vào menu bên trái → chọn Crawl → Robots testing tool (hoặc tìm nhanh bằng thanh tìm kiếm “robots tester”);
- Nhập URL đầy đủ cần kiểm tra (ví dụ:
https://example.com/blog/bai-viet-moi/). Đảm bảo URL thuộc cùng miền với tài sản đang mở; - Chọn User-agent: mặc định là
Googlebot, nhưng có thể đổi sangGooglebot-Image,Googlebot-Newshoặc*để kiểm tra chung; - Nhấn TEST. Kết quả sẽ hiện ngay dưới dạng trạng thái và quy tắc áp dụng;
- Nếu muốn thử sửa, bạn có thể nhập nội dung
robots.txtmới vào ô soạn thảo (chế độ preview), rồi nhấn TEST lại — không ảnh hưởng đến file thật trên máy chủ.
Lỗi thường gặp
Dưới đây là 5 lỗi phổ biến khi kiểm tra qua Robots.txt Tester và cách khắc phục:
| Lỗi | Dấu hiệu trong Tester | Cách khắc phục |
|---|---|---|
| Cú pháp sai (dấu hai chấm thừa, thiếu dấu gạch chéo) | Thông báo “Syntax error” hoặc “Invalid robots.txt” | Sửa theo chuẩn: User-agent: *, Disallow: /admin/ — không dùng Disallow: /admin (thiếu / cuối), không viết User-agent: *: |
| Quy tắc mâu thuẫn (Allow trước Disallow) | Kết quả “Blocked”, dù có dòng Allow tương ứng | Google ưu tiên quy tắc cụ thể hơn và áp dụng theo thứ tự xuất hiện — sắp xếp Allow trước Disallow nếu cần ưu tiên; kiểm tra độ dài đường dẫn (ví dụ: Allow: /blog/ không phủ được Disallow: /) |
| File robots.txt không tồn tại hoặc trả mã 404 | Thông báo “robots.txt not found” hoặc “HTTP error” | Đặt file robots.txt ở thư mục gốc (https://example.com/robots.txt), đảm bảo trả mã HTTP 200 và định dạng plain text |
| Chặn nhầm tài nguyên thiết yếu (CSS, JS, hình ảnh) | URL hiển thị “Allowed”, nhưng trang bị cảnh báo “Crawl anomaly” trong GSC | Loại bỏ các rule chặn /wp-includes/, /css/, /js/ trừ khi có lý do bảo mật rõ ràng; kiểm tra bằng URL Inspection Tool |
| Thiếu hoặc sai khai báo Sitemap | Không ảnh hưởng đến kết quả test URL, nhưng gây thiếu dữ liệu trong GSC | Thêm dòng Sitemap: https://example.com/sitemap.xml — chỉ chấp nhận một URL sitemap mỗi dòng, không hỗ trợ wildcard |
Ví dụ thực tế
Một website thương mại điện tử có cấu trúc:
- Trang danh mục:
/danh-muc/ - Trang sản phẩm:
/san-pham/ten-san-pham/ - Trang admin:
/wp-admin/
Nội dung robots.txt ban đầu:
User-agent: *
Disallow: /wp-admin/
Disallow: /danh-muc/
Khi kiểm tra URL https://example.com/san-pham/may-tinh-bang/ trong Robots.txt Tester → kết quả: Allowed. Nhưng khi kiểm tra https://example.com/danh-muc/may-tinh/ → Blocked. Tuy nhiên, chủ website phát hiện nhầm: họ muốn chặn chỉ trang danh mục cũ (/danh-muc-cu/), không phải toàn bộ /danh-muc/. Sau khi sửa thành Disallow: /danh-muc-cu/, tất cả trang danh mục đều được lập chỉ mục đúng cách — lượng traffic từ tìm kiếm tăng 22% sau 3 tuần.
Câu hỏi thường gặp
Robots.txt Tester có cập nhật ngay khi tôi chỉnh file trên máy chủ?
Không. Google cần thời gian để thu thập lại robots.txt — thường từ vài phút đến 24 giờ. Bạn có thể kích hoạt làm mới thủ công bằng cách nhấn nút Request indexing cho URL https://example.com/robots.txt trong URL Inspection Tool — nhưng hiệu lực chỉ bắt đầu từ lần crawl tiếp theo.
Công cụ có kiểm tra robots.txt trên subdomain không?
Không. Mỗi subdomain (ví dụ: blog.example.com) phải được xác minh riêng trong Search Console và có file robots.txt riêng tại https://blog.example.com/robots.txt. Việc kiểm tra trên example.com không áp dụng cho subdomain.
Robots.txt Tester có thể thay thế việc kiểm tra thủ công bằng curl hoặc trình duyệt không?
Không hoàn toàn. Công cụ này chỉ mô phỏng cách Google hiểu robots.txt, không kiểm tra mã phản hồi HTTP thực tế (403, 404, 500), không kiểm tra DNS hoặc CDN cache. Việc kiểm tra thủ công vẫn cần thiết để xác minh file tồn tại và trả đúng định dạng — ví dụ: chạy curl -I https://example.com/robots.txt để kiểm tra mã trạng thái và Content-Type.