Meta Robots Tag
Thẻ HTML kiểm soát hành vi crawler như index/noindex, follow/nofollow cho toàn bộ trang.
Meta Robots Tag là gì?
Meta Robots Tag là một thẻ HTML được đặt trong phần <head> của trang web, dùng để gửi hướng dẫn cho các công cụ tìm kiếm (như Google, Bing) về cách xử lý trang đó — cụ thể là có nên lập chỉ mục (index) hay không, và có nên theo dõi liên kết (follow) bên trong trang hay không.
Thẻ này không bắt buộc, nhưng rất hữu ích khi bạn muốn kiểm soát chính xác nội dung nào xuất hiện trên kết quả tìm kiếm, và nội dung nào nên giữ riêng tư hoặc tránh trùng lặp.
Tại sao quan trọng trong SEO?
Meta Robots Tag giúp bạn chủ động quản lý tài nguyên lập chỉ mục của công cụ tìm kiếm. Nếu không kiểm soát, crawler có thể index những trang không cần thiết (ví dụ: trang thanh toán thành công, trang bản thảo, trang lọc sản phẩm), gây loãng nội dung, phân tán quyền lực liên kết và làm giảm hiệu quả xếp hạng chung của website.
Nó còn hỗ trợ chiến lược SEO kỹ thuật bằng cách:
- Ngăn trang nhạy cảm hoặc chưa hoàn thiện bị hiển thị trên Google;
- Giảm tải cho bot bằng cách loại bỏ các trang không mang giá trị SEO;
- Hỗ trợ xử lý nội dung trùng lặp (khi kết hợp với
rel="canonical"); - Bổ sung cho tập tin
robots.txt, vì hai công cụ này hoạt động ở mức độ khác nhau:robots.txtchặn truy cập, cònmeta robotscho phép truy cập nhưng ngăn index.
Cách hoạt động
Khi crawler tải một trang, nó đọc phần <head> trước tiên. Nếu gặp thẻ <meta name="robots" content="...">, nó sẽ tuân theo các chỉ thị được ghi trong thuộc tính content. Các chỉ thị này là dạng từ khóa phân tách bằng dấu phẩy, ví dụ: noindex, nofollow.
Lưu ý quan trọng:
- Chỉ có tác dụng nếu trang được crawler truy cập — nếu
robots.txtchặn hoàn toàn việc truy cập vào trang, thì thẻmeta robotssẽ không được đọc; - Google tôn trọng hầu hết các chỉ thị phổ biến như
noindex,nofollow,noarchive, nhưng không hỗ trợ một số chỉ thị cũ nhưnoodphaynoydir(đã bị loại bỏ); - Một số chỉ thị chỉ áp dụng cho Google (ví dụ
notranslate,nosnippet), trong khi các chỉ thị cơ bản nhưnoindexđược hỗ trợ rộng rãi.
Hướng dẫn thực hiện
- Xác định mục tiêu: Liệt kê các trang cần kiểm soát (ví dụ: trang đăng nhập, trang kết quả tìm kiếm nội bộ, trang in, trang thử nghiệm).
- Chọn chỉ thị phù hợp: Dựa vào mục đích:
•noindex: Không đưa trang vào kết quả tìm kiếm.
•nofollow: Không theo liên kết trên trang.
•noindex, nofollow: Kết hợp cả hai.
•index, follow: Giá trị mặc định — không cần khai báo nếu không thay đổi. - Thêm thẻ vào <head>: Đặt đúng vị trí, trước thẻ
</head>. Ví dụ:
<meta name="robots" content="noindex, nofollow"> - Kiểm tra sau triển khai: Dùng công cụ URL Inspection trong Google Search Console để xác nhận trạng thái Indexing và xem crawler có đọc được thẻ hay không.
- Theo dõi định kỳ: Kiểm tra lại sau mỗi lần cập nhật theme hoặc CMS — một số hệ thống tự động ghi đè thẻ này.
Lỗi thường gặp
- Đặt thẻ trong <body> thay vì <head>: Crawler sẽ bỏ qua hoàn toàn. Luôn kiểm tra vị trí bằng trình xem mã nguồn (Ctrl+U).
- Dùng
noindextrên trang chủ hoặc trang danh mục quan trọng: Dẫn đến mất toàn bộ khả năng hiển thị trên Google. Cần rà soát kỹ trước khi áp dụng. - Kết hợp mâu thuẫn: Ví dụ
index, noindex— crawler sẽ bỏ qua toàn bộ thẻ do xung đột. Chỉ dùng một phiên bản rõ ràng. - Tin rằng
noindexbảo vệ nội dung khỏi bị sao chép: Sai. Trang vẫn có thể bị truy cập, lưu cache, hoặc chia sẻ nếu không có biện pháp bảo mật bổ sung. - Quên cập nhật khi chuyển trang sang HTTPS hoặc đổi domain: Thẻ có thể bị mất trong quá trình di chuyển — cần kiểm tra lại toàn bộ trang đã chuyển đổi.
Ví dụ thực tế
| Loại trang | Mục đích | Thẻ đề xuất | Ghi chú |
|---|---|---|---|
| Trang đăng nhập | Không cho xuất hiện trên Google | <meta name="robots" content="noindex, nofollow"> |
Ngăn index và không phân bổ quyền lực liên kết |
| Trang kết quả tìm kiếm nội bộ | Tránh nội dung trùng lặp, không có giá trị SEO | <meta name="robots" content="noindex, nofollow"> |
Thường có URL động, dễ sinh ra hàng nghìn trang vô nghĩa |
| Trang in (print version) | Giữ bản in riêng, không cạnh tranh với trang chuẩn | <meta name="robots" content="noindex"> |
Vẫn cho phép follow để truyền quyền lực nếu cần |
| Trang sản phẩm tạm ngưng bán | Duy trì cấu trúc liên kết nhưng ẩn khỏi tìm kiếm | <meta name="robots" content="noindex, follow"> |
Giữ quyền lực từ backlink, nhưng không hiển thị trên kết quả |
Câu hỏi thường gặp
Meta robots tag có giống robots.txt không?
Không. robots.txt là tập tin chặn crawler truy cập vào thư mục hoặc URL nhất định — tức là ngăn *việc đọc* trang. Còn meta robots cho phép crawler truy cập nhưng chỉ thị *cách xử lý sau khi đọc*: index hay không, follow hay không. Hai công cụ bổ trợ nhau, không thay thế lẫn nhau.
Google có luôn tuân thủ noindex không?
Google tôn trọng noindex nếu trang có thể truy cập được và thẻ được đặt đúng vị trí. Tuy nhiên, nếu trang bị chặn bởi robots.txt, Google sẽ không thấy thẻ noindex và có thể vẫn index trang qua liên kết từ nơi khác — dù không có nội dung. Vì vậy, không nên dùng robots.txt để thay thế noindex khi muốn ẩn trang một cách chắc chắn.
Có thể dùng meta robots cho từng crawler riêng biệt không?
Có. Thay vì dùng name="robots", bạn có thể chỉ định tên crawler cụ thể: ví dụ <meta name="googlebot" content="noindex"> chỉ ảnh hưởng tới Google, còn Bing và các công cụ khác vẫn tuân theo thẻ chung name="robots". Tuy nhiên, việc này chỉ cần thiết trong trường hợp đặc biệt — đa số website nên dùng thẻ chung để đơn giản và đảm bảo tính nhất quán.