Thuật Ngữ SEO A-Z

Sitemap (XML)

Tệp XML liệt kê các URL quan trọng của website, giúp công cụ tìm kiếm khám phá và lập chỉ mục hiệu quả hơn.

3 lượt xem Cập nhật: 29/05/2026

Sitemap (XML) là gì?

Sitemap (XML) là một tệp văn bản định dạng XML liệt kê các URL quan trọng trên website, kèm theo thông tin bổ sung như thời điểm cập nhật gần nhất (lastmod), tần suất thay đổi (changefreq) và mức độ ưu tiên so với các URL khác (priority). Đây không phải là bản đồ dành cho người dùng, mà là công cụ hỗ trợ kỹ thuật giúp công cụ tìm kiếm — đặc biệt là Google, Bing — hiểu cấu trúc trang web và khám phá nội dung một cách hiệu quả hơn.

Tại sao quan trọng trong SEO?

Sitemap XML không trực tiếp nâng thứ hạng từ khóa, nhưng đóng vai trò then chốt trong quy trình khám phá – lập chỉ mục – xếp hạng. Khi website có hàng trăm hoặc hàng nghìn trang, đặc biệt là trang mới, trang ít liên kết nội bộ (orphan pages), hoặc trang được tạo động (như danh mục sản phẩm theo bộ lọc), công cụ tìm kiếm dễ bỏ sót. Sitemap giúp:

  • Giảm thiểu rủi ro URL bị bỏ qua khi thu thập dữ liệu (crawling)
  • Hỗ trợ xác nhận quyền sở hữu trang qua Google Search Console hoặc Bing Webmaster Tools
  • Cung cấp tín hiệu về tính mới và mức độ cập nhật của nội dung
  • Tăng tốc độ lập chỉ mục cho trang mới — đặc biệt hữu ích với blog, tin tức, hoặc website thường xuyên cập nhật

Lưu ý: Việc gửi sitemap không đảm bảo mọi URL trong đó sẽ được lập chỉ mục. Google vẫn quyết định dựa trên chất lượng nội dung, trải nghiệm người dùng và các yếu tố khác.

Cách hoạt động

Khi bạn đăng tải tệp sitemap.xml lên máy chủ và thông báo cho công cụ tìm kiếm (qua Search Console hoặc tập tin robots.txt), hệ thống bot (ví dụ: Googlebot) sẽ:

  1. Tải tệp sitemap tại địa chỉ đã khai báo (thường là https://example.com/sitemap.xml)
  2. Đọc từng thẻ <url>, kiểm tra giá trị <loc> (URL đích), <lastmod> (ngày sửa cuối), và các thuộc tính tùy chọn
  3. Ưu tiên thu thập các URL có lastmod mới hoặc priority cao hơn — tuy nhiên mức độ ưu tiên này chỉ mang tính tham khảo, không bắt buộc
  4. Ghi nhận và lập chỉ mục nếu URL đáp ứng đủ điều kiện (không bị chặn bởi robots.txt, không trả mã 404/500, không có thẻ noindex)

Hướng dẫn thực hiện

Dưới đây là các bước triển khai sitemap XML đúng chuẩn:

  1. Xác định phạm vi cần đưa vào sitemap: Chỉ bao gồm URL công khai, có nội dung độc lập, không bị chặn bởi robots.txt hoặc thẻ noindex. Tránh đưa trang lỗi, trang đăng nhập, trang in, hoặc phiên bản trùng lặp (duplicate URLs).
  2. Tạo tệp sitemap:
    • Với website nhỏ (<100 trang): Dùng công cụ miễn phí như XML-Sitemaps.com hoặc Screaming Frog SEO Spider (phiên bản miễn phí giới hạn 500 URL)
    • Với website lớn hoặc CMS (WordPress, Shopify, Magento): Kích hoạt tính năng tự động sinh sitemap (ví dụ: plugin Yoast SEO, Rank Math, hoặc tính năng built-in của Shopify)
    • Với website custom: Viết script tự động xuất XML theo chuẩn sitemaps.org
  3. Định dạng chuẩn bắt buộc:
    • Mỗi URL nằm trong thẻ <url></url>
    • Thuộc tính <loc> là bắt buộc; các thuộc tính còn lại là tùy chọn
    • Tệp phải có phần mở đầu: <?xml version='1.0' encoding='UTF-8'?><urlset xmlns='http://www.sitemaps.org/schemas/sitemap/0.9'>
    • Dung lượng tối đa: 50 MB (nén) hoặc 50.000 URL mỗi tệp. Vượt quá thì phải chia thành nhiều sitemap con và dùng sitemap index.
  4. Thông báo cho công cụ tìm kiếm:
    • Thêm dòng vào robots.txt: Sitemap: https://example.com/sitemap.xml
    • Hoặc gửi thủ công qua Google Search Console > Sitemaps > nhập đường dẫn
  5. Theo dõi và cập nhật: Kiểm tra định kỳ trong Search Console phần Index Coverage để xem tỷ lệ URL trong sitemap được lập chỉ mục, đồng thời cập nhật sitemap sau mỗi đợt xuất bản nội dung lớn.

Lỗi thường gặp

Lỗi Dấu hiệu Cách khắc phục
URL trong sitemap trả mã 404 hoặc chuyển hướng vòng lặp Google báo “Submitted URL not found” hoặc “Crawled – currently not indexed” Kiểm tra toàn bộ URL bằng công cụ như Screaming Frog, loại bỏ hoặc sửa lại link hỏng
Sitemap chứa URL bị chặn bởi robots.txt Google ghi chú “Detected as blocked by robots.txt” Loại bỏ URL bị chặn hoặc điều chỉnh robots.txt để cho phép thu thập
URL trùng lặp (có www/non-www, HTTP/HTTPS) Nhiều URL gần giống nhau trong sitemap, gây loãng chỉ mục Dùng thẻ rel="canonical" và chỉ đưa phiên bản chuẩn duy nhất vào sitemap
Sitemap vượt giới hạn kích thước hoặc số lượng URL Google từ chối xử lý hoặc báo “Invalid file” Chia thành nhiều sitemap con và tạo sitemap index theo chuẩn sitemapindex.xml

Ví dụ thực tế

Dưới đây là đoạn mã sitemap XML đơn giản cho 3 trang chính của một website bán hàng:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://maytinh.vn/</loc>
    <lastmod>2024-04-15</lastmod>
    <changefreq>weekly</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://maytinh.vn/san-pham</loc>
    <lastmod>2024-04-12</lastmod>
    <changefreq>daily</changefreq>
    <priority>0.8</priority>
  </url>
  <url>
    <loc>https://maytinh.vn/lien-he</loc>
    <lastmod>2024-03-30</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.5</priority>
  </url>
</urlset>

Lưu ý: Giá trị changefreqpriority chỉ mang tính gợi ý — Google không sử dụng chúng để xếp hạng, và có thể bỏ qua hoàn toàn.

Câu hỏi thường gặp

Sitemap XML có cần thiết với mọi website?

Không bắt buộc, nhưng rất khuyến khích với website có hơn 50 trang, cấu trúc phức tạp, hoặc ít liên kết nội bộ. Website nhỏ, tĩnh, có đầy đủ internal linking có thể không cần — nhưng việc có sitemap vẫn an toàn và dễ quản lý hơn.

Một website có thể có nhiều sitemap XML không?

Có. Bạn có thể tạo riêng sitemap cho bài viết, sản phẩm, hình ảnh, video… rồi tổng hợp vào một sitemap index. Đây là cách tốt nhất để quản lý website lớn. Số lượng sitemap con không giới hạn — miễn là sitemap index tuân thủ chuẩn và không vượt quá 50.000 URL.

Sitemap XML có ảnh hưởng đến tốc độ tải trang không?

Không. Tệp sitemap.xml chỉ được bot công cụ tìm kiếm đọc — không tải về trình duyệt người dùng, không ảnh hưởng đến tốc độ hiển thị hay Core Web Vitals. Nó tồn tại độc lập trên máy chủ, không can thiệp vào mã nguồn frontend.