SEO E-Commerce

Crawl Budget Optimization

Phân bổ tài nguyên thu thập của Googlebot ưu tiên vào trang sản phẩm/danh mục quan trọng, loại bỏ URL không cần thiết (bộ lọc, session ID…).

4 lượt xem Cập nhật: 26/05/2026

Crawl Budget Optimization là gì?

Crawl Budget Optimization (tối ưu ngân sách thu thập) là quá trình chủ động quản lý và phân bổ lại lượng yêu cầu mà Googlebot gửi đến trang web — nhằm ưu tiên thu thập các trang quan trọng (như trang sản phẩm, danh mục chính), đồng thời giảm hoặc loại bỏ việc thu thập các URL không cần thiết (ví dụ: trang bộ lọc, URL chứa session ID, phiên bản in, trang so sánh trùng lặp…). Đây không phải là công cụ do Google cung cấp, mà là chiến lược kỹ thuật dựa trên cách Googlebot ra quyết định thu thập nội dung.

Tại sao quan trọng trong SEO?

Với website thương mại điện tử (e-commerce), số lượng URL thường rất lớn — có thể lên đến hàng trăm nghìn hoặc hơn do sự kết hợp của danh mục, bộ lọc, biến thể sản phẩm, phân trang, phiên bản ngôn ngữ… Nhưng Googlebot không thu thập toàn bộ URL trong một lần. Thay vào đó, nó phân bổ crawl budget dựa trên hai yếu tố chính: tần suất thu thập (crawl rate limit) và khả năng thu thập (crawl demand). Nếu ngân sách bị lãng phí vào URL vô giá trị, các trang sản phẩm mới hoặc cập nhật sẽ bị chậm xuất hiện trong kết quả tìm kiếm — ảnh hưởng trực tiếp đến khả năng hiển thị và doanh thu.

Đặc biệt, với các trang có tốc độ tải chậm, lỗi server (5xx), hoặc cấu trúc liên kết yếu, Googlebot càng dễ rút ngắn thời gian thu thập — làm giảm hiệu quả lập chỉ mục.

Cách hoạt động

Googlebot xác định ngân sách thu thập dựa trên:

  • Tốc độ thu thập tối đa: Số yêu cầu mỗi giây mà Googlebot sẵn sàng gửi tới máy chủ — phụ thuộc vào phản hồi của server (thời gian tải, mã trạng thái, độ ổn định).
  • Nhu cầu thu thập: Mức độ quan trọng và mức độ thay đổi của nội dung — được đánh giá qua lượt truy cập người dùng, độ phổ biến của trang, tần suất cập nhật, và độ tin cậy của liên kết.

Google không tiết lộ công thức tính toán cụ thể, nhưng xác nhận rằng trang có chất lượng cao, cập nhật thường xuyên và ít lỗi sẽ được ưu tiên thu thập nhiều hơn. Ngược lại, trang trùng lặp, nội dung mỏng hoặc không có liên kết nội bộ gần như không được thu thập — trừ khi có yêu cầu rõ ràng từ bên ngoài.

Hướng dẫn thực hiện

Dưới đây là các bước thực tế để tối ưu ngân sách thu thập cho website e-commerce:

  1. Phân tích hiện trạng thu thập: Dùng Google Search Console > Báo cáo "Hiệu suất thu thập" để xem số URL được thu thập mỗi ngày, tỷ lệ lỗi (4xx/5xx), và thời gian phản hồi trung bình.
  2. Xác định và loại bỏ URL không cần thiết: Dùng công cụ như Screaming Frog hoặc Sitebulb để phát hiện:
    • URL chứa tham số bộ lọc (ví dụ: ?color=red&size=m)
    • URL có session ID hoặc tracking parameter (?utm_source=..., ;jsessionid=...)
    • Trang phân trang thừa (trang 100+, trang không có sản phẩm)
    • Trang so sánh, in, PDF tự sinh — nếu không có giá trị SEO.
  3. Sử dụng robots.txt một cách có chọn lọc: Chặn các thư mục hoặc mẫu URL không cần lập chỉ mục (ví dụ: Disallow: /*?color=, Disallow: /print/). Lưu ý: Không chặn trang quan trọng bằng robots.txt — vì Google vẫn có thể lập chỉ mục nếu có liên kết mạnh từ bên ngoài.
  4. Áp dụng thẻ rel="canonical" đúng cách: Đặt canonical về trang gốc cho tất cả biến thể (bộ lọc, phân trang, phiên bản mobile) để tập trung tín hiệu về một URL duy nhất.
  5. Tối ưu tốc độ và độ ổn định server: Giảm thời gian phản hồi dưới 300ms, xử lý lỗi 5xx triệt để, bật cache và sử dụng CDN — giúp Googlebot thu thập nhanh và an toàn hơn.
  6. Đảm bảo cấu trúc liên kết nội bộ rõ ràng: Liên kết trực tiếp từ trang chủ hoặc danh mục cha đến các trang sản phẩm mới nhất — tăng tín hiệu “demand” cho Googlebot.

Lỗi thường gặp

Lỗi Hệ quả Cách khắc phục
Cho phép thu thập hàng chục nghìn URL bộ lọc Googlebot tiêu tốn 70–90% ngân sách vào URL không có nội dung độc lập Dùng robots.txt chặn mẫu tham số hoặc cấu hình URL Parameters trong Search Console (nếu còn hỗ trợ)
Không đặt canonical cho trang phân trang Google lập chỉ mục nhiều phiên bản (page=1, page=2…) gây loãng tín hiệu Đặt rel="canonical" về trang danh mục gốc; dùng rel="next"/"prev" nếu cần hỗ trợ phân trang (tùy trường hợp)
Server trả mã 503 trong vài giờ mỗi ngày Googlebot tạm dừng thu thập — ngân sách bị cắt giảm trong nhiều ngày Thay 503 bằng 503 chỉ khi bảo trì ngắn (<5 phút); nếu dài hơn, dùng 503 kèm Retry-After header

Ví dụ thực tế

Một sàn thời trang Việt Nam có 420.000 URL, trong đó 380.000 là biến thể bộ lọc (màu, kích thước, thương hiệu). Trước tối ưu, Googlebot thu thập trung bình 1.200 URL/ngày — nhưng chỉ 8% là trang sản phẩm gốc. Sau khi áp dụng:
– Chặn 12 mẫu tham số trong robots.txt
– Thiết lập canonical cho toàn bộ trang phân trang và bộ lọc
– Loại bỏ 95% URL trùng lặp qua báo cáo Coverage
→ Ngân sách thu thập tăng lên 4.800 URL/ngày, trong đó 65% là trang sản phẩm mới hoặc cập nhật. Thời gian lập chỉ mục trung bình giảm từ 17 ngày xuống còn 3–5 ngày.

Câu hỏi thường gặp

Google có công bố crawl budget cụ thể cho từng site không?

Không. Google không cung cấp con số tuyệt đối về ngân sách thu thập. Các số liệu trong Search Console (như “Số URL được thu thập”) chỉ phản ánh hành vi thực tế — không phải giới hạn cố định.

Có nên dùng noindex cho trang bộ lọc?

Có thể, nhưng cần cân nhắc: nếu trang bộ lọc có nội dung hữu ích (ví dụ: “giày nam giá dưới 500k”), việc noindex sẽ làm mất cơ hội xếp hạng. Giải pháp tốt hơn là giữ nguyên, nhưng dùng canonical về danh mục cha + tối ưu nội dung mô tả — để vừa kiểm soát ngân sách, vừa giữ tiềm năng SEO.

Website nhỏ có cần tối ưu crawl budget không?

Thường không cần cấp thiết — nếu tổng số URL dưới 5.000 và không có vấn đề kỹ thuật (lỗi server, tốc độ chậm, trùng lặp nghiêm trọng). Tuy nhiên, việc xây dựng thói quen tốt từ đầu (canonical sạch, cấu trúc URL gọn, không tạo URL thừa) luôn mang lại lợi ích lâu dài.