Google Search Console

Blocked by robots.txt

URL bị Google từ chối thu thập vì bị chặn bởi quy tắc trong tập tin robots.txt.

25 lượt xem Cập nhật: 22/07/2026

Blocked by robots.txt là gì?

Blocked by robots.txt là trạng thái trong Google Search Console (GSC) cho biết Googlebot không thể thu thập (crawl) một URL vì bị chặn bởi tập tin robots.txt trên website. Đây không phải lỗi kỹ thuật nghiêm trọng như 404 hay server error, mà là hành động chủ động — Google tuân thủ đúng quy tắc mà chủ trang web đã khai báo để hạn chế hoặc cấm thu thập nội dung nhất định.

Tập tin robots.txt nằm ở gốc miền (ví dụ: https://example.com/robots.txt) và dùng cú pháp chuẩn của giao thức Robots Exclusion Protocol. Khi Googlebot phát hiện quy tắc Disallow khớp với đường dẫn của URL, nó sẽ bỏ qua việc thu thập — dù nội dung đó có tồn tại, có thể truy cập bằng trình duyệt hay có backlink mạnh.

Tại sao quan trọng trong SEO?

Trạng thái này ảnh hưởng trực tiếp đến khả năng lập chỉ mục (indexing) của URL. Nếu Googlebot không thu thập được trang, Google không thể phân tích nội dung, đánh giá chất lượng, xác định từ khóa liên quan — và do đó không đưa trang vào kết quả tìm kiếm, kể cả khi trang đó có nội dung tốt, tối ưu và được liên kết nhiều.

Một số hệ lụy cụ thể:

Trang bị chặn nhưng cần xuất hiện trên Google (ví dụ: trang sản phẩm, bài blog hướng dẫn) sẽ mất toàn bộ lưu lượng tìm kiếm tự nhiên.
Nếu vô tình chặn thư mục chứa CSS/JS hoặc hình ảnh, Googlebot có thể hiểu sai bố cục, dẫn đến xếp hạng kém hơn (do trải nghiệm người dùng bị đánh giá thấp).
Trong các chiến dịch SEO mới, việc kiểm tra trạng thái này giúp phát hiện sớm xung đột giữa cấu hình robots.txt và chiến lược lập chỉ mục.
Không ảnh hưởng đến thứ hạng trực tiếp, nhưng là rào cản đầu tiên ngăn Google tiếp cận nội dung — nên luôn được ưu tiên kiểm tra trước khi tối ưu on-page.

Cách hoạt động

Khi Googlebot truy cập một website, nó luôn bắt đầu bằng việc tải tập tin robots.txt từ gốc miền. Sau đó, nó so sánh từng đường dẫn cần thu thập với các quy tắc User-agent và Disallow (hoặc Allow) trong tệp.

Quy trình diễn ra theo thứ tự ưu tiên:

Googlebot xác định User-agent phù hợp (thường là Googlebot hoặc * nếu không có quy tắc riêng).
Nó áp dụng quy tắc dài nhất khớp với đường dẫn (theo chuẩn RFC, không phải theo thứ tự xuất hiện trong file).
Nếu có cả Allow và Disallow trùng đường dẫn, Allow được ưu tiên hơn — nhưng chỉ khi cùng User-agent và cùng mức độ khớp.
Nếu đường dẫn bị Disallow (và không bị Allow ghi đè), Googlebot bỏ qua thu thập hoàn toàn — không gửi request tới server cho URL đó.

Lưu ý: robots.txt không phải công cụ bảo mật. Nội dung bị chặn vẫn có thể bị truy cập nếu có link trực tiếp hoặc được chia sẻ — nó chỉ ngăn công cụ tìm kiếm thu thập, không ngăn người dùng hoặc hacker.

Hướng dẫn thực hiện

Để khắc phục trạng thái Blocked by robots.txt, bạn cần kiểm tra và điều chỉnh tập tin robots.txt một cách có chủ đích:

Kiểm tra trạng thái trong GSC: Vào URL Inspection Tool → nhập URL → xem phần Crawlability. Nếu hiển thị Blocked by robots.txt, nhấn Test robots.txt để xem quy tắc nào gây ra.
Xem nội dung robots.txt: Truy cập https://domain.com/robots.txt và đọc kỹ các dòng Disallow. Chú ý ký tự đại diện (*, $) và dấu gạch chéo cuối.
Xác định mục tiêu rõ ràng: Hỏi lại: “Liệu URL này có nên được Google thu thập không?”. Nếu câu trả lời là “có”, thì cần sửa robots.txt.
Sửa quy tắc: Xóa hoặc điều chỉnh dòng Disallow gây chặn. Ví dụ: thay Disallow: /blog/ thành Disallow: /blog/private/ nếu chỉ muốn chặn thư mục con.
Cho phép tường minh (nếu cần): Dùng Allow để ghi đè, ví dụ: Disallow: /wp-content/ Allow: /wp-content/uploads/.
Kiểm tra lại bằng công cụ chính thức: Dùng robots.txt Tester trong GSC (trong phần Crawl > robots.txt Tester) để xác nhận URL đã không còn bị chặn.
Yêu cầu thu thập lại: Sau khi cập nhật, dùng Request Indexing trong URL Inspection Tool — nhưng chỉ sau khi chắc chắn URL đã khả dụng để crawl.

Lỗi thường gặp

Dưới đây là những sai lầm phổ biến khi quản lý robots.txt và cách xử lý:

Lỗi	Mô tả	Cách khắc phục
Chặn toàn bộ website	`User-agent: * Disallow: /`	Xóa dòng `Disallow: /` hoặc thay bằng các quy tắc cụ thể hơn.
Chặn tài nguyên thiết yếu	`Disallow: /css/ Disallow: /js/ Disallow: /images/`	Chỉ chặn thư mục không cần index (ví dụ: admin, backup). Giữ CSS/JS/hình ảnh mở để Google render đúng trang.
Sai cú pháp ký tự đặc biệt	Dùng `` hoặc `$` không đúng chuẩn (ví dụ: `Disallow: /product/.html` — không hợp lệ)	Chỉ dùng `*` trong `Allow`/`Disallow` nếu máy chủ hỗ trợ (Google chấp nhận, nhưng không phải tất cả bot đều hiểu). Với `$`, chỉ dùng ở cuối để chỉ kết thúc chuỗi.
Thiếu dấu gạch chéo cuối	`Disallow: /admin` (chặn cả `/admin`, `/administer`, `/administration`)	Thêm dấu gạch chéo: `Disallow: /admin/` để chỉ chặn thư mục.

Ví dụ thực tế

Một website bán hàng sử dụng WordPress có robots.txt như sau:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /category/
Disallow: /tag/

Khi kiểm tra trang blog https://example.com/blog/cach-chon-may-tinh, GSC báo Blocked by robots.txt. Nguyên nhân: Disallow: /category/ không ảnh hưởng trực tiếp, nhưng Disallow: /wp-content/ lại chặn thư mục chứa CSS và JS — khiến Googlebot không render được trang đúng cách, dẫn đến cảnh báo gián tiếp. Đồng thời, nhiều theme WordPress đặt bài viết dưới dạng /blog/... nhưng lại không cho phép thư mục /blog/ trong robots.txt — dẫn đến URL bị chặn hoàn toàn.

Giải pháp: Sửa thành
Disallow: /wp-admin/ Disallow: /wp-includes/ Allow: /wp-content/uploads/ Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/
và thêm Allow: /blog/ nếu cần index blog.

Câu hỏi thường gặp

robots.txt có ngăn Google lập chỉ mục không?

Không trực tiếp. robots.txt chỉ ngăn thu thập — nhưng nếu Google không crawl được trang, nó gần như không thể lập chỉ mục. Tuy nhiên, nếu trang có nhiều backlink mạnh, Google đôi khi vẫn lập chỉ mục (dạng indexed, not submitted in sitemap), nhưng không hiển thị mô tả hay tiêu đề chính xác. Để đảm bảo, nên dùng thẻ noindex nếu muốn chặn index mà vẫn cho crawl.

Tôi sửa robots.txt rồi, bao lâu Google cập nhật?

Googlebot thường quét lại robots.txt mỗi vài giờ đến vài ngày — tùy tần suất cập nhật của website. Bạn có thể đẩy nhanh bằng cách dùng robots.txt Tester trong GSC để kích hoạt kiểm tra ngay, nhưng thời gian crawl lại URL cụ thể phụ thuộc vào ngân sách thu thập (crawl budget) và mức độ ưu tiên của trang — thường từ 1–7 ngày.

Có nên chặn trang đăng nhập hoặc thanh toán bằng robots.txt?

Có, nên chặn — vì đây là các trang không mang giá trị nội dung cho người dùng tìm kiếm, đồng thời giảm tải cho Googlebot. Tuy nhiên, cần đảm bảo không chặn nhầm các tài nguyên hỗ trợ (CSS/JS) trên các trang công khai liền kề. Ngoài ra, nên kết hợp với thẻ noindex và yêu cầu không theo dõi (nofollow) để tăng tính an toàn.