URL Parameters Handling
Cách cấu hình crawler xử lý các tham số URL (ví dụ: ?utm_source=, ?sort=) để tránh lập chỉ mục dư thừa.
URL Parameters Handling là gì?
URL Parameters Handling (xử lý tham số URL) là cách bạn hướng dẫn công cụ tìm kiếm — đặc biệt là Googlebot — hiểu và xử lý các phần sau dấu chấm hỏi (?) trong địa chỉ web, như ?utm_source=facebook, ?page=2, ?sort=price_asc hay ?ref=blog. Đây không phải là việc xóa bỏ tham số, mà là kiểm soát xem công cụ tìm kiếm có nên lập chỉ mục trang chứa tham số đó, có nên theo dõi liên kết có tham số, hay có nên coi chúng là bản sao trùng lặp của trang gốc hay không.
Tại sao quan trọng trong SEO?
Khi công cụ tìm kiếm lập chỉ mục nhiều phiên bản khác nhau của cùng một nội dung do tham số tạo ra — ví dụ: example.com/san-pham?sort=popularity, example.com/san-pham?sort=price_desc, example.com/san-pham?utm_medium=email — hệ thống có thể:
- Phân tán tín hiệu liên kết (link equity) giữa nhiều URL không cần thiết;
- Gây nhiễu báo cáo phân tích (GA4, Search Console);
- Làm chậm tốc độ thu thập (crawl budget), vì bot dành thời gian cho các URL không mang giá trị nội dung;
- Tăng nguy cơ bị đánh giá là nội dung trùng lặp (duplicate content), ảnh hưởng đến thứ hạng.
Việc xử lý tham số đúng giúp tập trung quyền lực lập chỉ mục vào phiên bản chính — thường là URL không có tham số hoặc có tham số lọc không làm thay đổi nội dung cốt lõi.
Cách hoạt động
Googlebot đọc cấu hình xử lý tham số qua hai kênh chính:
- Google Search Console (GSC): Trong mục Crawl > URL Parameters (đã chuyển sang chế độ cũ nhưng vẫn hoạt động với tài khoản đã bật), bạn khai báo từng tham số và chọn hành vi mong muốn (ví dụ: “Không ảnh hưởng đến nội dung”, “Thay đổi nội dung”, “Chỉ dùng để theo dõi”).
- Robots.txt + rel="canonical" + meta robots: Là phương pháp chủ động và đáng tin cậy hơn. Bạn dùng thẻ
rel="canonical"trỏ về URL chuẩn; đặtnoindexcho các biến không cần lập chỉ mục; hoặc chặn thu thập bằngDisallowtrongrobots.txtnếu phù hợp.
Lưu ý: Google tuyên bố họ không còn hỗ trợ giao diện URL Parameters trong GSC mới kể từ năm 2021, nhưng vẫn tôn trọng cấu hình cũ nếu đã được lưu. Hiện tại, Google phụ thuộc chủ yếu vào tín hiệu từ mã nguồn (canonical, noindex, cấu trúc site) và hành vi thực tế của bot.
Hướng dẫn thực hiện
Dưới đây là quy trình thực tế, an toàn và tuân thủ nguyên tắc Google:
- Phân tích tham số hiện có: Dùng Google Search Console > Pages > URL Inspection hoặc công cụ như Screaming Frog để xuất danh sách tất cả URL có dấu
?. Lọc theo nhóm tham số phổ biến:utm_*,ref,fbclid,sort,filter,page,q. - Phân loại theo tác động nội dung:
- Tham số theo dõi (
utm_source,gclid,fbclid): Không thay đổi nội dung → luôn dùngrel="canonical"trỏ về URL gốc. - Tham số phân trang (
page=2,offset=20): Nếu nội dung khác biệt (ví dụ: danh sách sản phẩm mới), giữ lại và thêmrel="next"/rel="prev"; nếu là bản sao (ví dụ: trang giới thiệu lặp lại), chặn bằngnoindexhoặc canonical. - Tham số sắp xếp & lọc (
sort=price,color=red): Thường tạo nội dung trùng lặp → ưu tiên canonical về trang danh mục gốc, hoặc chặn thu thập nếu không cần lập chỉ mục.
- Tham số theo dõi (
- Triển khai kỹ thuật:
- Thêm thẻ
<link rel="canonical" href="https://example.com/san-pham/">vào<head>mọi trang có tham số theo dõi hoặc phân trang. - Với trang lọc không cần lập chỉ mục: thêm
<meta name="robots" content="noindex, follow">. - Nếu muốn ngăn bot thu thập hoàn toàn: dùng
robots.txtnhưDisallow: /*?sort=hoặcDisallow: /*utm_— nhưng chỉ khi chắc chắn không ảnh hưởng đến khả năng khám phá nội dung chính.
- Thêm thẻ
- Kiểm tra & giám sát: Dùng công cụ URL Inspection trong GSC để xác minh canonical và trạng thái lập chỉ mục; theo dõi báo cáo Coverage để phát hiện lỗi Submitted URL marked ‘noindex’ hoặc Duplicate without user-selected canonical.
Lỗi thường gặp
- Đặt canonical sai hướng: Ví dụ trang
/san-pham?page=2canonical về/san-pham?page=1thay vì/san-pham/→ gây nhầm lẫn tín hiệu. Cách khắc phục: Luôn trỏ canonical về URL chuẩn không có tham số (hoặc có tham số tối thiểu nhất đại diện cho nội dung). - Dùng
noindexcho toàn bộ nhóm phân trang: Khiến Google không lập chỉ mục bất kỳ trang nào ngoài trang đầu → mất cơ hội xếp hạng cho nội dung ở trang 2–5. Cách khắc phục: Chỉnoindexnếu nội dung trùng lặp; nếu khác biệt, giữindexvà dùngrel="next/prev"hoặc pagination markup (JSON-LD). - Chặn thu thập bằng
robots.txtcho tham số lọc mà không kiểm tra kỹ: Bot không thể đọc HTML → không thấy thẻ canonical hay meta robots → dẫn đến lập chỉ mục sai. Cách khắc phục: Ưu tiên dùngnoindexhoặc canonical thay vì chặn ở lớp robots.txt, trừ khi chắc chắn không cần bot truy cập.
Ví dụ thực tế
Một website thương mại điện tử có URL:
https://shop.vn/dien-thoai/?sort=price_asc&brand=applehttps://shop.vn/dien-thoai/?utm_source=newsletterhttps://shop.vn/dien-thoai/?page=3
Giải pháp áp dụng:
| Loại URL | Hành động đề xuất | Ghi chú |
|---|---|---|
?utm_source=... |
Giữ index, thêm canonical về /dien-thoai/ |
Không chặn crawl — cần theo dõi hiệu quả chiến dịch |
?sort=...&brand=... |
Thêm noindex, follow + canonical về /dien-thoai/ |
Tránh lập chỉ mục hàng trăm biến thể không cần thiết |
?page=3 |
Giữ index, dùng rel="canonical" về chính nó, kèm rel="prev"/rel="next" |
Nội dung khác biệt → cần lập chỉ mục riêng |
Câu hỏi thường gặp
Google có tự động nhận diện tham số không?
Có, Googlebot có khả năng phát hiện và nhóm các URL tương tự, nhưng mức độ chính xác phụ thuộc vào cấu trúc site và tín hiệu rõ ràng bạn gửi đi. Không nên phụ thuộc hoàn toàn vào khả năng tự động — luôn chủ động khai báo qua canonical và meta robots.
Có nên xóa toàn bộ tham số khỏi URL bằng redirect 301?
Không khuyến khích. Việc redirect hàng loạt có thể gây lỗi vòng lặp, làm mất dữ liệu phân tích, và ảnh hưởng đến trải nghiệm người dùng (ví dụ: link chia sẻ từ email sẽ bị đổi). Xử lý ở lớp HTML (canonical/noindex) là an toàn và linh hoạt hơn.
Tham số trên URL có ảnh hưởng đến tốc độ tải trang không?
Không trực tiếp — tham số bản thân không làm chậm trang. Nhưng nếu chúng kích hoạt logic backend phức tạp (ví dụ: chạy lại query lọc mỗi lần có ?color=blue), thì có thể ảnh hưởng đến thời gian phản hồi. Đây là vấn đề hiệu năng, không phải SEO, nhưng cần phối hợp với đội phát triển để tối ưu.