Robots Meta Tag
Thuộc tính HTML kiểm soát việc lập chỉ mục và theo dõi liên kết của trang bởi bot.
Robots Meta Tag là gì?
Robots meta tag là một thẻ HTML được đặt trong phần <head> của trang web, dùng để gửi hướng dẫn trực tiếp cho các công cụ tìm kiếm (như Google, Bing) về việc có nên lập chỉ mục trang đó hay theo dõi liên kết bên trong nó hay không. Đây là cách kiểm soát mức độ hiển thị của trang trên kết quả tìm kiếm — không phải lệnh bắt buộc, mà là lời đề nghị (hint). Các bot tuân thủ khi chúng hỗ trợ và hiểu đúng cú pháp.
Tại sao quan trọng trong SEO?
Robots meta tag giúp bạn tránh những vấn đề SEO nghiêm trọng do trùng lặp nội dung, lộ thông tin nhạy cảm hoặc phân bổ sai ngân sách thu thập (crawl budget). Ví dụ: nếu trang so sánh giá, trang thanh toán hoặc bản sao nội dung xuất hiện nhiều lần trên site, việc chặn lập chỉ mục sẽ ngăn Google hiển thị phiên bản kém chất lượng. Nó cũng bảo vệ tài nguyên máy chủ bằng cách giảm yêu cầu không cần thiết từ bot — đặc biệt với site lớn có hàng ngàn trang không mang giá trị tìm kiếm.
Khác với robots.txt (chỉ kiểm soát việc truy cập), robots meta tag kiểm soát việc lập chỉ mục sau khi đã truy cập. Vì vậy, hai công cụ này bổ sung chứ không thay thế nhau.
Cách hoạt động
Khi bot truy cập một trang, nó đọc toàn bộ phần <head> trước tiên. Nếu gặp thẻ <meta name="robots" content="...">, bot sẽ phân tích giá trị thuộc tính content để xác định hành vi phù hợp. Lưu ý: thẻ chỉ có hiệu lực nếu trang được bot truy cập thành công — tức là không bị chặn bởi robots.txt, tường lửa hoặc trả mã trạng thái HTTP lỗi (403, 404, 500…).
Một số giá trị phổ biến như index, noindex, follow, nofollow — có thể kết hợp bằng dấu phẩy, không phân biệt hoa thường. Giá trị không hợp lệ hoặc thiếu sẽ khiến bot bỏ qua thẻ và áp dụng hành vi mặc định (thường là index,follow).
Hướng dẫn thực hiện
- Xác định mục tiêu rõ ràng: Liệt kê các loại trang cần kiểm soát (ví dụ: trang đăng nhập, trang in, trang kết quả tìm kiếm nội bộ, phiên bản mobile riêng biệt).
- Chọn giá trị phù hợp: Dùng bảng dưới đây làm cơ sở ra quyết định.
- Thêm vào <head>: Đặt chính xác trong phần
<head>, trước thẻ</head>. Không đặt nhiều lần — bot chỉ đọc thẻ đầu tiên. - Kiểm tra thực tế: Dùng công cụ URL Inspection trong Google Search Console để xác minh trạng thái “Có được lập chỉ mục không?” và xem bot có đọc được thẻ hay không.
- Theo dõi định kỳ: Kiểm tra lại sau mỗi lần cập nhật theme hoặc CMS — một số plugin tự động ghi đè thẻ meta.
Lỗi thường gặp
- Dùng
noindextrên trang chủ: Gây mất toàn bộ hiện diện tìm kiếm. Khắc phục: Kiểm tra kỹ file header hoặc template, đảm bảo trang chủ luôn cóindex,follow. - Thẻ bị đặt sai vị trí: Đặt trong
<body>hoặc sau</head>→ bot bỏ qua hoàn toàn. Khắc phục: Dùng trình duyệt nhấn chuột phải → “Xem nguồn trang” → tìm trong phần<head>. - Kết hợp mâu thuẫn: Như
content="noindex, index"→ giá trị sau cùng không được xử lý, bot có thể bỏ qua cả thẻ. Khắc phục: Chỉ dùng một giá trị mỗi loại (một trongindex/noindex, một trongfollow/nofollow). - Tin rằng
noindexxóa trang khỏi Google ngay lập tức: Thực tế: Google cần thời gian để quét lại, xác nhận và gỡ khỏi chỉ mục — có thể mất vài ngày đến vài tuần. Khắc phục: Kết hợp với yêu cầu gỡ nhanh qua Search Console nếu cần cấp bách.
Ví dụ thực tế
Dưới đây là các ví dụ chuẩn, đã kiểm thử với Googlebot (tính đến tháng 06/2024):
- Cho phép lập chỉ mục và theo dõi liên kết (mặc định):
<meta name="robots" content="index,follow"> - Chặn lập chỉ mục nhưng vẫn theo dõi liên kết (dùng cho trang tổng hợp nội dung):
<meta name="robots" content="noindex,follow"> - Cho phép lập chỉ mục nhưng không theo dõi liên kết (ít dùng, thường cho trang có liên kết ngoài không đáng tin):
<meta name="robots" content="index,nofollow"> - Chặn cả hai (dùng cho trang nội bộ, form đăng ký):
<meta name="robots" content="noindex,nofollow">
Lưu ý: Một số hệ thống CMS (WordPress, Shopify) hỗ trợ cài đặt này qua giao diện — nhưng cần kiểm tra mã nguồn vì plugin có thể ghi đè.
| Giá trị | Ý nghĩa | Ảnh hưởng lên Google | Ghi chú |
|---|---|---|---|
index |
Cho phép lập chỉ mục | Hiển thị trong kết quả tìm kiếm (nếu đủ điều kiện) | Giá trị mặc định — không cần khai báo nếu không dùng noindex |
noindex |
Không lập chỉ mục | Không xuất hiện trong kết quả tìm kiếm | Google vẫn có thể theo dõi liên kết nếu có follow |
follow |
Cho phép theo dõi liên kết | Truyền PageRank và khám phá trang mới | Mặc định — không cần khai báo nếu không dùng nofollow |
nofollow |
Không theo dõi liên kết | Không truyền PageRank, không khám phá trang liên kết | Không ảnh hưởng đến lập chỉ mục của trang hiện tại |
Câu hỏi thường gặp
Robots meta tag có khác gì so với robots.txt?
Có. robots.txt kiểm soát việc truy cập (crawl), còn robots meta tag kiểm soát việc lập chỉ mục (index) sau khi đã truy cập. Một trang bị chặn bởi robots.txt thì bot không đọc được thẻ meta — nên hai công cụ phải dùng song song và nhất quán.
Nếu dùng cả noindex và X-Robots-Tag trong header HTTP thì cái nào ưu tiên?
X-Robots-Tag trong header HTTP được ưu tiên hơn robots meta tag. Nếu cả hai tồn tại và mâu thuẫn, bot sẽ tuân theo X-Robots-Tag. Đây là quy tắc chính thức của Google và Bing.
Có thể dùng robots meta tag để chặn hình ảnh hoặc video không?
Không. Robots meta tag chỉ áp dụng cho toàn bộ trang HTML. Để kiểm soát lập chỉ mục phương tiện, cần dùng thẻ <meta name="googlebot" content="noimageindex"> (chỉ Google) hoặc thuộc tính data-nosnippet — nhưng hiệu lực hạn chế và tùy trường hợp.