international crawl budget
Phân bổ tài nguyên bot của công cụ tìm kiếm cho nhiều phiên bản ngôn ngữ/vùng, cần tối ưu cấu trúc và robots.txt để tránh lãng phí.
international crawl budget là gì?
International crawl budget (ngân sách thu thập quốc tế) là phần tài nguyên mà công cụ tìm kiếm — chủ yếu là Google — dành để thu thập (crawl) các trang thuộc nhiều phiên bản ngôn ngữ và/hoặc khu vực địa lý trên cùng một tên miền hoặc hệ thống đa ngôn ngữ. Đây không phải là một giới hạn cố định do Google công bố, mà là kết quả của việc phân bổ động dựa trên độ tin cậy, hiệu suất kỹ thuật và mức độ ưu tiên của từng phiên bản quốc tế.
Khác với crawl budget thông thường (tập trung vào số lượng trang được thu thập trên một trang web đơn lẻ), international crawl budget liên quan đến cách bot xử lý hàng loạt URL có cấu trúc như example.com/vi/, example.com/de/, example.com/en-us/ hoặc de.example.com. Nếu không quản lý tốt, bot có thể dành quá nhiều thời gian cho phiên bản ít quan trọng (ví dụ: tiếng Pháp chưa ra mắt), trong khi bỏ sót phiên bản đang cần lập chỉ mục nhanh (ví dụ: tiếng Nhật mới cập nhật sản phẩm).
Tại sao quan trọng trong SEO?
Khi bạn vận hành website đa ngôn ngữ/vùng, mỗi phiên bản đều cần được Google hiểu đúng về đối tượng người dùng, nội dung và mối quan hệ giữa các phiên bản. Nếu ngân sách thu thập bị phân bổ lệch:
- Phiên bản mới hoặc đang cập nhật có thể bị chậm lập chỉ mục — làm chậm hiệu quả chiến dịch thị trường;
- Các phiên bản trùng lặp (duplicate) hoặc chưa tối ưu dễ bị thu thập thừa, gây lãng phí tài nguyên;
- Google khó xác định phiên bản nào là canonical cho từng khu vực, dẫn đến phân tán tín hiệu xếp hạng;
- Hiệu suất tổng thể của chiến lược International SEO suy giảm — dù nội dung và hreflang đã đúng.
Đây không phải vấn đề chỉ xảy ra với website lớn: ngay cả site có 500–1.000 trang nhưng chia thành 6 phiên bản cũng có thể gặp tình trạng bot ưu tiên sai nếu cấu trúc không rõ ràng.
Cách hoạt động
Googlebot không có “bảng cân đối ngân sách” riêng cho từng quốc gia hay ngôn ngữ. Thay vào đó, nó điều chỉnh hành vi thu thập dựa trên:
- Tốc độ phản hồi và độ ổn định của từng subfolder/subdomain (ví dụ:
/fr/trả mã 503 thường xuyên → bot giảm tần suất thu thập); - Mức độ liên kết nội bộ và số lượng backlink từ khu vực tương ứng (trang
/jp/được liên kết từ nhiều trang tiếng Nhật → tăng ưu tiên); - Tính nhất quán của thẻ hreflang và sự tồn tại của
x-default— giúp bot hiểu đây là hệ thống quốc tế, không phải nội dung trùng lặp; - Thiết lập robots.txt và
noindex— nếu vô tình chặn toàn bộ/es/, bot sẽ không bao giờ biết phiên bản này tồn tại.
Google cũng xem xét crawl demand — tức mức độ người dùng tìm kiếm nội dung ở khu vực đó. Một phiên bản tiếng Ba Lan có ít traffic tự nhiên và ít từ khóa cạnh tranh sẽ nhận ngân sách thấp hơn phiên bản tiếng Đức — tùy trường hợp.
Hướng dẫn thực hiện
Để kiểm soát international crawl budget hiệu quả, cần kết hợp kỹ thuật và chiến lược:
- Phân tích hiện trạng thu thập: Dùng Google Search Console → chọn property → Crawl Stats hoặc URL Inspection để so sánh tần suất thu thập giữa các subfolder (ví dụ:
/en/vs/pt-br/). Lưu ý: dữ liệu chỉ khả dụng theo property — nếu dùng subdomain, mỗi subdomain cần property riêng. - Tối ưu cấu trúc URL và hreflang: Dùng một trong ba mô hình chuẩn (subfolder, subdomain, ccTLD), đảm bảo hreflang đầy đủ, chính xác và hai chiều. Không dùng hreflang trỏ tới URL trả mã 404 hoặc redirect vòng.
- Điều chỉnh robots.txt theo vùng: Không chặn toàn bộ thư mục quốc tế. Nếu muốn tạm ẩn phiên bản tiếng Hà Lan trong giai đoạn thử nghiệm, hãy dùng
Disallow: /nl/— nhưng phải gỡ bỏ ngay khi ra mắt. TránhDisallow: /hoặcDisallow: /*. - Giảm tải bằng canonical và noindex hợp lý: Các trang danh mục lọc theo giá, màu sắc… nên dùng
rel="canonical"trỏ về danh mục gốc; trang so sánh phiên bản cũ/mới có thểnoindexnếu không cần lập chỉ mục. - Tăng tín hiệu khu vực: Liên kết nội bộ từ trang chủ tới các phiên bản quốc tế bằng văn bản phù hợp (ví dụ: “Tiếng Việt”, “Deutsch”, “Español”), kèm hreflang. Đảm bảo thông tin địa chỉ, tiền tệ, số điện thoại phù hợp với từng khu vực.
Lỗi thường gặp
| Lỗi | Hệ quả | Cách khắc phục |
|---|---|---|
| Hreflang trỏ tới URL 404 hoặc redirect 302 | Google bỏ qua toàn bộ chuỗi hreflang → coi các phiên bản là nội dung trùng lặp | Kiểm tra hreflang bằng công cụ như hreflang.org hoặc Screaming Frog; thay 302 bằng 301 hoặc sửa URL đích |
robots.txt chặn toàn bộ thư mục quốc tế (ví dụ: Disallow: /fr/) trong khi muốn lập chỉ mục |
Bot không bao giờ thu thập → phiên bản không xuất hiện trong kết quả tìm kiếm | Xóa dòng chặn; kiểm tra lại bằng robots.txt Tester trong Search Console |
Dùng noindex trên trang chủ quốc tế (ví dụ: /it/) |
Toàn bộ cây con có thể không được thu thập do thiếu điểm vào | Chỉ dùng noindex cho trang không cần lập chỉ mục (ví dụ: trang thanh toán, trang lỗi); giữ trang chủ quốc tế luôn indexable |
Ví dụ thực tế
Một thương hiệu thời trang Việt Nam mở rộng sang Thái Lan và Indonesia. Họ dùng cấu trúc subfolder: brand.com/th/, brand.com/id/. Ban đầu, Google thu thập 80% ngân sách cho /th/ và chỉ 5% cho /id/, dù cả hai đều có nội dung đầy đủ và hreflang đúng.
Phân tích cho thấy: (1) trang chủ tiếng Thái có 32 liên kết nội bộ trỏ tới /th/, trong khi trang chủ tiếng Indonesia chỉ có 3; (2) file robots.txt vô tình chứa dòng Disallow: /id/*?* do quy tắc wildcard sai; (3) trang /id/ trả mã 503 trong 2 ngày đầu tháng do bảo trì server.
Sau khi sửa: loại bỏ wildcard trong robots.txt, thêm 15 liên kết nội bộ từ trang chủ tới /id/, đảm bảo uptime 99,9%, tỷ lệ thu thập cho /id/ tăng lên 35% trong vòng 3 tuần — và lượt hiển thị (impressions) từ Indonesia tăng 120%.
Câu hỏi thường gặp
International crawl budget có thể đo đếm chính xác không?
Không. Google không công bố con số cụ thể. Bạn chỉ có thể đánh giá gián tiếp qua dữ liệu Crawl Stats, Index Coverage và tốc độ lập chỉ mục của từng phiên bản — tất cả đều mang tính tương đối và có thể thay đổi.
Có nên dùng ccTLD (ví dụ: .th, .id) để cải thiện ngân sách thu thập?
ccTLD giúp Google hiểu rõ hơn về mục tiêu khu vực, nhưng không tự động tăng ngân sách thu thập. Hiệu quả phụ thuộc vào chất lượng hosting, tốc độ tải, và cấu hình DNS — nếu site brand.th chậm hơn brand.com/th/, ngân sách vẫn có thể thấp hơn. Việc chọn mô hình phụ thuộc vào chiến lược dài hạn, không phải chỉ vì crawl budget.
hreflang sai có làm giảm ngân sách thu thập không?
Không trực tiếp — nhưng hreflang sai khiến Google hiểu nhầm cấu trúc quốc tế, dẫn đến thu thập trùng lặp, lập chỉ mục sai phiên bản, và cuối cùng là giảm hiệu quả sử dụng ngân sách. Đây là lỗi chiến lược, không phải lỗi kỹ thuật thu thập.