URL Parameter Handling
Cấu hình cách công cụ tìm kiếm xử lý tham số URL (qua robots.txt hoặc Google Search Console) nhằm kiểm soát lập chỉ mục.
URL Parameter Handling là gì?
URL Parameter Handling (Xử lý tham số URL) là cách bạn thông báo cho công cụ tìm kiếm — đặc biệt là Google — biết nên lập chỉ mục hay bỏ qua các phiên bản URL chứa tham số (như ?utm_source=facebook, ?sort=price, ?page=2). Đây không phải là việc chặn truy cập bằng robots.txt, mà là hướng dẫn tinh chỉnh cách Google hiểu và xử lý nội dung trùng lặp hoặc không quan trọng do tham số tạo ra.
Tại sao quan trọng trong SEO?
Khi một trang web dùng nhiều tham số để lọc, phân trang, theo dõi hoặc cá nhân hóa, nó có thể tạo ra hàng trăm — thậm chí hàng nghìn — URL khác nhau nhưng dẫn đến cùng một nội dung. Ví dụ: /san-pham?color=red, /san-pham?color=blue, /san-pham?ref=email đều hiển thị cùng danh sách sản phẩm. Nếu Google lập chỉ mục tất cả, hệ thống sẽ:
- Mất tài nguyên thu thập (crawl budget) vào các URL không mang giá trị độc lập,
- Gây nhiễu dữ liệu báo cáo (CTR, tỷ lệ thoát, vị trí từ khóa),
- Làm loãng tín hiệu liên kết vì backlink phân tán giữa nhiều URL giống nhau,
- Tăng nguy cơ bị đánh giá là nội dung trùng lặp (duplicate content).
URL Parameter Handling giúp bạn giữ kiểm soát: chỉ những URL thực sự khác biệt về nội dung mới được lập chỉ mục — từ đó nâng cao hiệu quả thu thập và chất lượng chỉ mục.
Cách hoạt động
Google không đọc cấu hình URL Parameter Handling từ robots.txt. Tính năng này chỉ khả dụng trong Google Search Console (GSC), dành riêng cho chủ sở hữu tài nguyên đã xác minh. Khi bạn khai báo một tham số (ví dụ: sort), bạn chọn một trong ba hành vi:
- Bỏ qua: Google không dùng tham số để phân biệt URL — coi
/blog?sort=datevà/bloglà cùng một trang. - Có ảnh hưởng: Google coi tham số làm thay đổi nội dung — ví dụ
/san-pham?id=123và/san-pham?id=456là hai trang riêng biệt. - Không ảnh hưởng: Google vẫn thu thập URL có tham số nhưng không lập chỉ mục chúng — thường dùng cho tham số theo dõi (UTM).
Lưu ý: Cấu hình này chỉ áp dụng với các URL thuộc tài nguyên đã xác minh trong GSC. Không hỗ trợ đối với tên miền phụ chưa được thêm riêng biệt. Ngoài ra, Google có thể không tuân thủ cấu hình nếu phát hiện mâu thuẫn rõ ràng với thực tế (ví dụ: bạn khai báo filter là “bỏ qua”, nhưng mỗi giá trị lại trả về nội dung hoàn toàn khác).
Hướng dẫn thực hiện
Các bước sau áp dụng cho Google Search Console (giao diện mới, tính đến tháng 06/2024):
- Xác minh tài nguyên: Đảm bảo bạn đã xác minh đúng dạng URL (ví dụ:
https://example.com/, không phảihttp://hoặcwwwnếu chưa thêm riêng). - Vào phần Cài đặt: Trong thanh bên trái → Settings → URL Parameters.
- Thêm tham số: Nhập tên tham số (không bao gồm dấu
?hoặc=), ví dụ:utm_source,page,sort. - Chọn hành vi: Với mỗi tham số, chọn một trong ba tùy chọn:
– Yes: Changes URLs → “Có ảnh hưởng”
– No: Doesn’t change page content → “Bỏ qua”
– No: URLs with this parameter should not be crawled → “Không ảnh hưởng” (rất hiếm khi dùng). - Lưu cấu hình: Mỗi thay đổi được áp dụng sau vài ngày — không tức thì. Google sẽ bắt đầu điều chỉnh cách thu thập trong các lần crawl tiếp theo.
Lưu ý quan trọng: Không cấu hình tham số trong robots.txt để xử lý lập chỉ mục — file này chỉ kiểm soát việc thu thập (crawl), không ảnh hưởng đến quyết định lập chỉ mục (indexing). Việc dùng Disallow trong robots.txt cho URL có tham số sẽ ngăn Google thu thập, nhưng không đảm bảo URL không xuất hiện trong chỉ mục nếu có liên kết từ nơi khác.
Lỗi thường gặp
- Lỗi 1: Cấu hình tham số sai tên hoặc viết hoa không nhất quán
→ Google phân biệt chữ hoa/thường. Nếu URL dùng?Category=phonenhưng bạn khai báocategory, cấu hình sẽ không áp dụng.
→ Cách khắc phục: Kiểm tra chính xác tên tham số từ URL thực tế, dùng công cụ như Screaming Frog hoặc xem log crawl. - Lỗi 2: Áp dụng “Bỏ qua” cho tham số thực sự tạo nội dung khác biệt
→ Ví dụ:?lang=vivà?lang=endẫn đến phiên bản tiếng Việt và tiếng Anh — đây là nội dung khác nhau, cần đánh dấu “Có ảnh hưởng” và dùng thẻhreflang. Nếu chọn “Bỏ qua”, Google có thể gộp hai phiên bản thành một, gây lỗi hiển thị ngôn ngữ.
→ Cách khắc phục: Kiểm tra từng giá trị tham số bằng tay hoặc script tự động; ưu tiên kiểm thử trên ít nhất 3 giá trị đại diện. - Lỗi 3: Phụ thuộc hoàn toàn vào URL Parameter Handling mà bỏ qua các biện pháp khác
→ Tính năng này chỉ là một lớp hướng dẫn, không phải quy tắc bắt buộc. Google vẫn ưu tiên tín hiệu mạnh hơn như thẻrel="canonical",noindex, hoặc cấu trúc URL hợp lý.
→ Cách khắc phục: Dùng kết hợp: canonical cho trang gốc, noindex cho trang phân trang thứ 2+, và URL Parameter Handling như lớp bảo vệ bổ sung.
Ví dụ thực tế
Một website thương mại điện tử có cấu trúc:
/dien-thoai?brand=samsung&sort=price_low/dien-thoai?brand=apple&sort=date_new/dien-thoai?utm_medium=cpc&utm_campaign=summer
Phân tích:
| Tham số | Tác động nội dung | Hành vi đề xuất trong GSC | Ghi chú |
|---|---|---|---|
brand |
Có — thay đổi danh sách sản phẩm | Có ảnh hưởng | Nên dùng canonical linh hoạt hoặc cấu trúc thư mục (/dien-thoai/samsung) |
sort |
Không — chỉ sắp xếp lại cùng danh sách | Bỏ qua | Tránh lập chỉ mục các biến thể sắp xếp |
utm_* |
Không — chỉ dùng theo dõi | Bỏ qua | Nên loại bỏ UTM ở link nội bộ, chỉ giữ khi chia sẻ ngoài |
Câu hỏi thường gặp
URL Parameter Handling có thay thế được thẻ rel="canonical" không?
Không. Thẻ rel="canonical" là tín hiệu mạnh nhất và được tôn trọng gần như tuyệt đối. URL Parameter Handling chỉ là hướng dẫn bổ sung — hữu ích khi bạn không kiểm soát được việc chèn canonical (ví dụ: nền tảng SaaS). Luôn ưu tiên canonical trước.
Tôi có thể cấu hình tham số cho toàn bộ tên miền phụ không?
Không. Mỗi tài nguyên trong Google Search Console (ví dụ: https://blog.example.com/) phải được xác minh và cấu hình riêng. Không có cài đặt “áp dụng cho tất cả subdomain”.
Cấu hình mất bao lâu để có hiệu lực?
Thời gian thay đổi tùy trường hợp — thường từ 3 đến 14 ngày. Google cần thu thập lại các URL liên quan và tái đánh giá. Bạn có thể kiểm tra tiến độ qua báo cáo Index Coverage và Crawl Stats trong GSC.