Google Search Console

Robots.txt Tester

Công cụ kiểm tra cú pháp và hiệu lực của tập tin robots.txt đối với từng URL trong miền.

21 lượt xem Cập nhật: 22/07/2026

Robots.txt Tester là gì?

Robots.txt Tester là công cụ kiểm tra trực tuyến trong Google Search Console (GSC) giúp chủ sở hữu website xác minh cú pháp, cấu trúc và hiệu lực của tập tin robots.txt đối với từng URL cụ thể trên miền. Công cụ này không chỉ kiểm tra xem tập tin có hợp lệ về mặt cú pháp hay không, mà còn mô phỏng cách Googlebot đọc và áp dụng các quy tắc Allow, Disallow, User-agent, Sitemap — từ đó cho biết URL nào bị chặn hoặc được phép lập chỉ mục.

Tại sao quan trọng trong SEO?

Việc sai sót trong robots.txt có thể vô tình chặn toàn bộ trang chủ, trang sản phẩm, hoặc tệp CSS/JS — dẫn đến:

Mất khả năng lập chỉ mục: Google không thu thập được nội dung dù trang có chất lượng cao;
Hư hỏng trải nghiệm người dùng: nếu file CSS/JS bị chặn, trang hiển thị lỗi hoặc thiếu định dạng;
Ảnh hưởng đến tốc độ lập chỉ mục: chậm crawl → chậm xuất hiện trên kết quả tìm kiếm;
Không phát hiện sớm khi thay đổi cấu trúc website (ví dụ: chuyển sang HTTPS, thêm subdomain).

Robots.txt Tester giúp phát hiện lỗi trước khi chúng ảnh hưởng đến dữ liệu thực tế — đặc biệt quan trọng với website lớn, đa ngôn ngữ hoặc có nhiều môi trường (staging, production).

Cách hoạt động

Công cụ hoạt động bằng cách:

Đọc nội dung robots.txt từ miền đang được xác minh trong Search Console;
Phân tích cú pháp theo tiêu chuẩn Robots Exclusion Protocol (không hỗ trợ noindex, nofollow — những thẻ này phải đặt trong HTML hoặc HTTP header);
Mô phỏng yêu cầu crawl của Googlebot (hoặc Googlebot-Image, Googlebot-News tùy chọn) với URL bạn nhập;
Trả về kết quả: Cho phép, Bị chặn, hoặc Không rõ — kèm giải thích chi tiết quy tắc nào đã áp dụng.

Lưu ý: Công cụ chỉ phản ánh cách Google hiểu robots.txt tại thời điểm kiểm tra — không kiểm tra hiệu lực của robots.txt trên các công cụ tìm kiếm khác như Bing hay Yandex.

Hướng dẫn thực hiện

Dưới đây là các bước sử dụng Robots.txt Tester trong Google Search Console (phiên bản mới nhất tính đến tháng 06/2024):

Đăng nhập vào Google Search Console và chọn đúng tài sản (URL-prefix hoặc Domain) đã được xác minh;
Vào menu bên trái → chọn Crawl → Robots testing tool (hoặc tìm nhanh bằng thanh tìm kiếm “robots tester”);
Nhập URL đầy đủ cần kiểm tra (ví dụ: https://example.com/blog/bai-viet-moi/). Đảm bảo URL thuộc cùng miền với tài sản đang mở;
Chọn User-agent: mặc định là Googlebot, nhưng có thể đổi sang Googlebot-Image, Googlebot-News hoặc * để kiểm tra chung;
Nhấn TEST. Kết quả sẽ hiện ngay dưới dạng trạng thái và quy tắc áp dụng;
Nếu muốn thử sửa, bạn có thể nhập nội dung robots.txt mới vào ô soạn thảo (chế độ preview), rồi nhấn TEST lại — không ảnh hưởng đến file thật trên máy chủ.

Lỗi thường gặp

Dưới đây là 5 lỗi phổ biến khi kiểm tra qua Robots.txt Tester và cách khắc phục:

Lỗi	Dấu hiệu trong Tester	Cách khắc phục
Cú pháp sai (dấu hai chấm thừa, thiếu dấu gạch chéo)	Thông báo “Syntax error” hoặc “Invalid robots.txt”	Sửa theo chuẩn: `User-agent: `, `Disallow: /admin/` — không dùng `Disallow: /admin` (thiếu / cuối), không viết `User-agent: :`
Quy tắc mâu thuẫn (Allow trước Disallow)	Kết quả “Blocked”, dù có dòng Allow tương ứng	Google ưu tiên quy tắc cụ thể hơn và áp dụng theo thứ tự xuất hiện — sắp xếp `Allow` trước `Disallow` nếu cần ưu tiên; kiểm tra độ dài đường dẫn (ví dụ: `Allow: /blog/` không phủ được `Disallow: /`)
File robots.txt không tồn tại hoặc trả mã 404	Thông báo “robots.txt not found” hoặc “HTTP error”	Đặt file `robots.txt` ở thư mục gốc (`https://example.com/robots.txt`), đảm bảo trả mã HTTP 200 và định dạng plain text
Chặn nhầm tài nguyên thiết yếu (CSS, JS, hình ảnh)	URL hiển thị “Allowed”, nhưng trang bị cảnh báo “Crawl anomaly” trong GSC	Loại bỏ các rule chặn `/wp-includes/`, `/css/`, `/js/` trừ khi có lý do bảo mật rõ ràng; kiểm tra bằng URL Inspection Tool
Thiếu hoặc sai khai báo Sitemap	Không ảnh hưởng đến kết quả test URL, nhưng gây thiếu dữ liệu trong GSC	Thêm dòng `Sitemap: https://example.com/sitemap.xml` — chỉ chấp nhận một URL sitemap mỗi dòng, không hỗ trợ wildcard

Ví dụ thực tế

Một website thương mại điện tử có cấu trúc:

Trang danh mục: /danh-muc/
Trang sản phẩm: /san-pham/ten-san-pham/
Trang admin: /wp-admin/

Nội dung robots.txt ban đầu:

User-agent: *
Disallow: /wp-admin/
Disallow: /danh-muc/

Khi kiểm tra URL https://example.com/san-pham/may-tinh-bang/ trong Robots.txt Tester → kết quả: Allowed. Nhưng khi kiểm tra https://example.com/danh-muc/may-tinh/ → Blocked. Tuy nhiên, chủ website phát hiện nhầm: họ muốn chặn chỉ trang danh mục cũ (/danh-muc-cu/), không phải toàn bộ /danh-muc/. Sau khi sửa thành Disallow: /danh-muc-cu/, tất cả trang danh mục đều được lập chỉ mục đúng cách — lượng traffic từ tìm kiếm tăng 22% sau 3 tuần.

Câu hỏi thường gặp

Robots.txt Tester có cập nhật ngay khi tôi chỉnh file trên máy chủ?

Không. Google cần thời gian để thu thập lại robots.txt — thường từ vài phút đến 24 giờ. Bạn có thể kích hoạt làm mới thủ công bằng cách nhấn nút Request indexing cho URL https://example.com/robots.txt trong URL Inspection Tool — nhưng hiệu lực chỉ bắt đầu từ lần crawl tiếp theo.

Công cụ có kiểm tra robots.txt trên subdomain không?

Không. Mỗi subdomain (ví dụ: blog.example.com) phải được xác minh riêng trong Search Console và có file robots.txt riêng tại https://blog.example.com/robots.txt. Việc kiểm tra trên example.com không áp dụng cho subdomain.

Robots.txt Tester có thể thay thế việc kiểm tra thủ công bằng curl hoặc trình duyệt không?

Không hoàn toàn. Công cụ này chỉ mô phỏng cách Google hiểu robots.txt, không kiểm tra mã phản hồi HTTP thực tế (403, 404, 500), không kiểm tra DNS hoặc CDN cache. Việc kiểm tra thủ công vẫn cần thiết để xác minh file tồn tại và trả đúng định dạng — ví dụ: chạy curl -I https://example.com/robots.txt để kiểm tra mã trạng thái và Content-Type.