Blocked by robots.txt
URL bị Google từ chối thu thập vì bị chặn bởi quy tắc trong tập tin robots.txt.
Blocked by robots.txt là gì?
Blocked by robots.txt là trạng thái trong Google Search Console (GSC) cho biết Googlebot không thể thu thập (crawl) một URL vì bị chặn bởi tập tin robots.txt trên website. Đây không phải lỗi kỹ thuật nghiêm trọng như 404 hay server error, mà là hành động chủ động — Google tuân thủ đúng quy tắc mà chủ trang web đã khai báo để hạn chế hoặc cấm thu thập nội dung nhất định.
Tập tin robots.txt nằm ở gốc miền (ví dụ: https://example.com/robots.txt) và dùng cú pháp chuẩn của giao thức Robots Exclusion Protocol. Khi Googlebot phát hiện quy tắc Disallow khớp với đường dẫn của URL, nó sẽ bỏ qua việc thu thập — dù nội dung đó có tồn tại, có thể truy cập bằng trình duyệt hay có backlink mạnh.
Tại sao quan trọng trong SEO?
Trạng thái này ảnh hưởng trực tiếp đến khả năng lập chỉ mục (indexing) của URL. Nếu Googlebot không thu thập được trang, Google không thể phân tích nội dung, đánh giá chất lượng, xác định từ khóa liên quan — và do đó không đưa trang vào kết quả tìm kiếm, kể cả khi trang đó có nội dung tốt, tối ưu và được liên kết nhiều.
Một số hệ lụy cụ thể:
- Trang bị chặn nhưng cần xuất hiện trên Google (ví dụ: trang sản phẩm, bài blog hướng dẫn) sẽ mất toàn bộ lưu lượng tìm kiếm tự nhiên.
- Nếu vô tình chặn thư mục chứa CSS/JS hoặc hình ảnh, Googlebot có thể hiểu sai bố cục, dẫn đến xếp hạng kém hơn (do trải nghiệm người dùng bị đánh giá thấp).
- Trong các chiến dịch SEO mới, việc kiểm tra trạng thái này giúp phát hiện sớm xung đột giữa cấu hình
robots.txtvà chiến lược lập chỉ mục. - Không ảnh hưởng đến thứ hạng trực tiếp, nhưng là rào cản đầu tiên ngăn Google tiếp cận nội dung — nên luôn được ưu tiên kiểm tra trước khi tối ưu on-page.
Cách hoạt động
Khi Googlebot truy cập một website, nó luôn bắt đầu bằng việc tải tập tin robots.txt từ gốc miền. Sau đó, nó so sánh từng đường dẫn cần thu thập với các quy tắc User-agent và Disallow (hoặc Allow) trong tệp.
Quy trình diễn ra theo thứ tự ưu tiên:
- Googlebot xác định
User-agentphù hợp (thường làGooglebothoặc*nếu không có quy tắc riêng). - Nó áp dụng quy tắc dài nhất khớp với đường dẫn (theo chuẩn RFC, không phải theo thứ tự xuất hiện trong file).
- Nếu có cả
AllowvàDisallowtrùng đường dẫn,Allowđược ưu tiên hơn — nhưng chỉ khi cùngUser-agentvà cùng mức độ khớp. - Nếu đường dẫn bị
Disallow(và không bịAllowghi đè), Googlebot bỏ qua thu thập hoàn toàn — không gửi request tới server cho URL đó.
Lưu ý: robots.txt không phải công cụ bảo mật. Nội dung bị chặn vẫn có thể bị truy cập nếu có link trực tiếp hoặc được chia sẻ — nó chỉ ngăn công cụ tìm kiếm thu thập, không ngăn người dùng hoặc hacker.
Hướng dẫn thực hiện
Để khắc phục trạng thái Blocked by robots.txt, bạn cần kiểm tra và điều chỉnh tập tin robots.txt một cách có chủ đích:
- Kiểm tra trạng thái trong GSC: Vào URL Inspection Tool → nhập URL → xem phần Crawlability. Nếu hiển thị Blocked by robots.txt, nhấn Test robots.txt để xem quy tắc nào gây ra.
- Xem nội dung
robots.txt: Truy cậphttps://domain.com/robots.txtvà đọc kỹ các dòngDisallow. Chú ý ký tự đại diện (*,$) và dấu gạch chéo cuối. - Xác định mục tiêu rõ ràng: Hỏi lại: “Liệu URL này có nên được Google thu thập không?”. Nếu câu trả lời là “có”, thì cần sửa
robots.txt. - Sửa quy tắc: Xóa hoặc điều chỉnh dòng
Disallowgây chặn. Ví dụ: thayDisallow: /blog/thànhDisallow: /blog/private/nếu chỉ muốn chặn thư mục con. - Cho phép tường minh (nếu cần): Dùng
Allowđể ghi đè, ví dụ:Disallow: /wp-content/ Allow: /wp-content/uploads/. - Kiểm tra lại bằng công cụ chính thức: Dùng robots.txt Tester trong GSC (trong phần Crawl > robots.txt Tester) để xác nhận URL đã không còn bị chặn.
- Yêu cầu thu thập lại: Sau khi cập nhật, dùng Request Indexing trong URL Inspection Tool — nhưng chỉ sau khi chắc chắn URL đã khả dụng để crawl.
Lỗi thường gặp
Dưới đây là những sai lầm phổ biến khi quản lý robots.txt và cách xử lý:
| Lỗi | Mô tả | Cách khắc phục |
|---|---|---|
| Chặn toàn bộ website | User-agent: *
Disallow: / |
Xóa dòng Disallow: / hoặc thay bằng các quy tắc cụ thể hơn. |
| Chặn tài nguyên thiết yếu | Disallow: /css/
Disallow: /js/
Disallow: /images/ |
Chỉ chặn thư mục không cần index (ví dụ: admin, backup). Giữ CSS/JS/hình ảnh mở để Google render đúng trang. |
| Sai cú pháp ký tự đặc biệt | Dùng * hoặc $ không đúng chuẩn (ví dụ: Disallow: /product/*.html — không hợp lệ) |
Chỉ dùng * trong Allow/Disallow nếu máy chủ hỗ trợ (Google chấp nhận, nhưng không phải tất cả bot đều hiểu). Với $, chỉ dùng ở cuối để chỉ kết thúc chuỗi. |
| Thiếu dấu gạch chéo cuối | Disallow: /admin (chặn cả /admin, /administer, /administration) |
Thêm dấu gạch chéo: Disallow: /admin/ để chỉ chặn thư mục. |
Ví dụ thực tế
Một website bán hàng sử dụng WordPress có robots.txt như sau:
User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/ Disallow: /category/ Disallow: /tag/
Khi kiểm tra trang blog https://example.com/blog/cach-chon-may-tinh, GSC báo Blocked by robots.txt. Nguyên nhân: Disallow: /category/ không ảnh hưởng trực tiếp, nhưng Disallow: /wp-content/ lại chặn thư mục chứa CSS và JS — khiến Googlebot không render được trang đúng cách, dẫn đến cảnh báo gián tiếp. Đồng thời, nhiều theme WordPress đặt bài viết dưới dạng /blog/... nhưng lại không cho phép thư mục /blog/ trong robots.txt — dẫn đến URL bị chặn hoàn toàn.
Giải pháp: Sửa thànhDisallow: /wp-admin/
Disallow: /wp-includes/
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
và thêm Allow: /blog/ nếu cần index blog.
Câu hỏi thường gặp
robots.txt có ngăn Google lập chỉ mục không?
Không trực tiếp. robots.txt chỉ ngăn thu thập — nhưng nếu Google không crawl được trang, nó gần như không thể lập chỉ mục. Tuy nhiên, nếu trang có nhiều backlink mạnh, Google đôi khi vẫn lập chỉ mục (dạng indexed, not submitted in sitemap), nhưng không hiển thị mô tả hay tiêu đề chính xác. Để đảm bảo, nên dùng thẻ noindex nếu muốn chặn index mà vẫn cho crawl.
Tôi sửa robots.txt rồi, bao lâu Google cập nhật?
Googlebot thường quét lại robots.txt mỗi vài giờ đến vài ngày — tùy tần suất cập nhật của website. Bạn có thể đẩy nhanh bằng cách dùng robots.txt Tester trong GSC để kích hoạt kiểm tra ngay, nhưng thời gian crawl lại URL cụ thể phụ thuộc vào ngân sách thu thập (crawl budget) và mức độ ưu tiên của trang — thường từ 1–7 ngày.
Có nên chặn trang đăng nhập hoặc thanh toán bằng robots.txt?
Có, nên chặn — vì đây là các trang không mang giá trị nội dung cho người dùng tìm kiếm, đồng thời giảm tải cho Googlebot. Tuy nhiên, cần đảm bảo không chặn nhầm các tài nguyên hỗ trợ (CSS/JS) trên các trang công khai liền kề. Ngoài ra, nên kết hợp với thẻ noindex và yêu cầu không theo dõi (nofollow) để tăng tính an toàn.