Sitemap Index
Tệp XML liệt kê nhiều sitemap con, dùng để quản lý và gửi hàng nghìn URL cho Google.
Sitemap Index là gì?
Sitemap Index (danh mục sitemap) là một tệp XML đặc biệt, dùng để liệt kê và quản lý nhiều tệp sitemap con — mỗi sitemap con chứa danh sách các URL của một phần cụ thể trong website. Khác với sitemap thường (chứa trực tiếp URL), sitemap index không chứa URL nào, mà chỉ chứa đường dẫn đến các sitemap khác.
Google và các công cụ tìm kiếm hỗ trợ định dạng này từ năm 2007. Theo tài liệu chính thức của Google, một sitemap index có thể chứa tối đa 50.000 sitemap con, và bản thân tệp index phải nhỏ hơn 50 MB (không nén). Đây là giải pháp bắt buộc khi website có hàng chục nghìn trang trở lên — ví dụ: tin tức cập nhật theo ngày, thương mại điện tử có hàng triệu sản phẩm phân theo danh mục, hoặc hệ thống học tập với nội dung theo khóa học và bài học.
Tại sao quan trọng trong SEO?
Sitemap Index giúp công cụ tìm kiếm hiểu cấu trúc quy mô lớn của website một cách hiệu quả và đáng tin cậy. Khi bạn gửi một sitemap index vào Google Search Console, Google sẽ tự động tải lần lượt từng sitemap con được liệt kê — điều này giảm thiểu rủi ro bỏ sót URL do giới hạn kích thước hoặc thời gian xử lý.
Nó còn hỗ trợ:
- Phân chia hợp lý tải trọng: Chia nhỏ dữ liệu thành các sitemap theo chủ đề (ví dụ: /sitemap-posts-2023.xml, /sitemap-products-category-a.xml) giúp dễ kiểm soát và cập nhật;
- Tăng tốc thu thập (crawling): Google ưu tiên thu thập các sitemap đã được khai báo rõ ràng thay vì dò tìm ngẫu nhiên;
- Hỗ trợ bảo trì kỹ thuật: Khi một sitemap con lỗi, chỉ phần đó bị ảnh hưởng — toàn bộ hệ thống vẫn hoạt động ổn định.
Cách hoạt động
Khi Google thu thập (crawl) một sitemap index, nó đọc từng thẻ <sitemap>, sau đó truy cập đường dẫn trong thẻ <loc> để tải sitemap con tương ứng. Quá trình này lặp lại cho đến khi hết danh sách. Google không crawl sâu hơn mức này — nghĩa là sitemap index không hỗ trợ lồng cấp 3 (sitemap index chứa sitemap index khác).
Mỗi sitemap con phải tuân thủ chuẩn Sitemaps Protocol 0.9 và được khai báo đúng định dạng URL (có thể là HTTP hoặc HTTPS, nhưng phải nhất quán với giao thức đang dùng trên website).
Hướng dẫn thực hiện
- Xác định phạm vi cần chia: Phân nhóm URL theo tiêu chí hợp lý — ví dụ: theo năm xuất bản, theo danh mục sản phẩm, theo loại nội dung (bài viết, video, sản phẩm), hoặc theo ngôn ngữ (nếu dùng hreflang).
- Tạo sitemap con: Mỗi nhóm URL được xuất ra một tệp XML riêng, đảm bảo không vượt quá 50.000 URL và 50 MB (không nén). Dùng công cụ như Screaming Frog, Ahrefs Site Audit, hoặc plugin WordPress (Yoast SEO, Rank Math) để sinh tự động.
- Tạo sitemap index: Viết tệp XML theo mẫu chuẩn. Ví dụ:
<?xml version="1.0" encoding="UTF-8"?> <sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <sitemap> <loc>https://example.com/sitemap-posts-2023.xml</loc> <lastmod>2023-12-15</lastmod> </sitemap> <sitemap> <loc>https://example.com/sitemap-products-category-a.xml</loc> <lastmod>2024-01-10</lastmod> </sitemap> </sitemapindex> - Tải lên máy chủ: Đặt tệp
sitemap-index.xmlở thư mục gốc (ví dụ:https://example.com/sitemap-index.xml) hoặc vị trí dễ truy cập. - Thông báo cho Google: Gửi đường dẫn sitemap index vào Google Search Console (phần Sitemaps). Không cần gửi từng sitemap con nếu đã khai báo đầy đủ trong index.
- Cập nhật định kỳ: Thay đổi thẻ
<lastmod>trong sitemap index mỗi khi có sitemap con mới hoặc chỉnh sửa — giúp Google biết có nội dung mới cần thu thập.
Lỗi thường gặp
| Lỗi | Dấu hiệu | Cách khắc phục |
|---|---|---|
| Đường dẫn sitemap con không tồn tại hoặc trả mã 404 | Google báo “URL không khả dụng” trong Search Console | Kiểm tra chính tả URL, đảm bảo file tồn tại và có quyền truy cập công khai (không chặn bởi robots.txt hay .htaccess) |
| Sitemap index vượt quá 50 MB hoặc chứa hơn 50.000 sitemap con | Google từ chối xử lý, hiển thị cảnh báo “Invalid sitemap index” | Chia nhỏ thành nhiều sitemap index (ví dụ: sitemap-index-1.xml, sitemap-index-2.xml) và gửi từng cái riêng lẻ |
Thiếu thẻ <lastmod> hoặc ngày sai định dạng |
Google bỏ qua thẻ <lastmod>, không phản ánh thời gian cập nhật thực tế |
Dùng định dạng chuẩn ISO 8601: YYYY-MM-DD hoặc YYYY-MM-DDTHH:MM:SS+HH:MM. Không dùng ngày tương đối như “hôm nay” |
Ví dụ thực tế
Một trang tin điện tử có hơn 800.000 bài viết, được chia theo năm và tháng. Họ tạo:
- 1 sitemap index tổng:
https://baonews.vn/sitemap-index.xml - 12 sitemap con cho năm 2023:
sitemap-2023-01.xml→sitemap-2023-12.xml - 15 sitemap con cho năm 2024 (tính đến tháng 3/2024):
sitemap-2024-01.xml→sitemap-2024-15.xml
Tổng cộng 27 sitemap con — nằm gọn trong giới hạn 50.000. Sau khi gửi sitemap-index.xml, Google thu thập đầy đủ 800.000 URL trong vòng 3–5 ngày, tăng tỷ lệ lập chỉ mục lên 92% (so với 68% trước khi dùng index).
Câu hỏi thường gặp
Sitemap Index có thay thế được robots.txt không?
Không. robots.txt dùng để hướng dẫn công cụ tìm kiếm cái gì không được thu thập, còn sitemap index chỉ gợi ý cái gì nên thu thập. Hai tệp bổ sung cho nhau, không thay thế.
Có cần gửi cả sitemap index và từng sitemap con vào Google Search Console?
Chỉ cần gửi sitemap index. Google sẽ tự động phát hiện và thu thập tất cả sitemap con được liệt kê bên trong — miễn là chúng khả dụng và đúng định dạng. Việc gửi thêm từng sitemap con là dư thừa và không gây hại, nhưng không cần thiết.
Sitemap Index có hỗ trợ thẻ <priority> hoặc <changefreq> không?
Không. Hai thẻ này chỉ áp dụng cho sitemap con (chứa URL trực tiếp). Trong sitemap index, chỉ có hai thẻ bắt buộc: <loc> và <lastmod>. Các thẻ khác sẽ bị bỏ qua.