Crawlability
Khả năng bot tìm kiếm (như Googlebot) truy cập và đọc nội dung trang web thông qua hệ thống liên kết và file robots.txt.
Crawlability là gì?
Crawlability (khả năng thu thập dữ liệu) là mức độ mà các bot tìm kiếm — như Googlebot, Bingbot hay DuckDuckBot — có thể truy cập, duyệt và đọc nội dung trên một trang web thông qua hệ thống liên kết (links), file robots.txt, thẻ HTML, và cấu trúc URL. Đây không phải là việc trang có xuất hiện trên kết quả tìm kiếm hay không, mà là điều kiện tiên quyết để công cụ tìm kiếm biết đến sự tồn tại của trang đó.
Một trang có crawlability tốt nghĩa là bot có thể:
- Truy cập URL mà không bị chặn bởi
robots.txt, meta tagnoindexhoặc header HTTPX-Robots-Tag: noindex; - Duyệt được từ ít nhất một đường dẫn hợp lệ (internal link hoặc external link);
- Chạy mã HTML/JS cơ bản (nếu cần) để phát hiện nội dung và liên kết mới;
- Nhận diện đúng mã trạng thái HTTP (200 OK, 301, 404…).
Tại sao quan trọng trong SEO?
Crawlability là bước đầu tiên trong quy trình lập chỉ mục (indexing) và xếp hạng (ranking). Nếu bot không thể thu thập trang, dù nội dung tuyệt vời đến đâu, Google cũng sẽ không biết trang đó tồn tại — và do đó không thể hiển thị nó trong kết quả tìm kiếm.
Theo tài liệu chính thức của Google (tài liệu Google Search Central, cập nhật tháng 3/2024), khoảng 30–40% số trang trên web bị bỏ qua trong quá trình thu thập do vấn đề crawlability — chủ yếu vì lỗi cấu hình, liên kết hỏng hoặc chặn vô tình.
Điều này ảnh hưởng trực tiếp đến:
- Số lượng trang được lập chỉ mục;
- Tốc độ cập nhật nội dung mới;
- Khả năng cạnh tranh cho từ khóa dài (long-tail) có liên quan đến nội dung sâu;
- Hiệu quả của chiến lược nội dung tổng thể.
Cách hoạt động
Quá trình crawl bắt đầu từ các URL gốc (seed URLs) như trang chủ, sitemap.xml hoặc các backlink từ trang khác. Bot sau đó:
- Kiểm tra file
robots.txtđể xác định khu vực nào được phép/dừng thu thập; - Gửi yêu cầu HTTP tới URL, kiểm tra mã phản hồi (200, 403, 500…);
- Phân tích nội dung HTML để trích xuất liên kết nội bộ (
<a href="...">); - Với trang dùng JavaScript, bot có thể chạy phần mã cần thiết để render nội dung — nhưng chỉ với giới hạn tài nguyên nhất định (tùy vào mức độ phức tạp và cấu hình server);
- Ghi nhận các tín hiệu như
rel="canonical",meta robots, hoặc headerX-Robots-Tagđể quyết định có tiếp tục lập chỉ mục hay không.
Hướng dẫn thực hiện
Để đảm bảo crawlability tốt, bạn nên thực hiện tuần tự các bước sau:
- Kiểm tra file
robots.txt: Truy cậphttps://domain.com/robots.txt. Đảm bảo không có dòngDisallow: /hoặcDisallow: /admin/vô tình chặn thư mục chứa nội dung công khai. - Loại bỏ thẻ
noindexkhông cần thiết: Kiểm tra source code trang (Ctrl+U → tìmnoindex). Chỉ dùngnoindexcho trang không muốn xuất hiện trên tìm kiếm (ví dụ: trang thanh toán, bản nháp). - Đảm bảo cấu trúc liên kết rõ ràng: Mỗi trang quan trọng nên có ít nhất một liên kết nội bộ từ trang khác (tốt nhất từ trang chủ hoặc menu chính). Tránh “trang cô lập” (orphan pages).
- Tối ưu tốc độ tải và mã trạng thái: Trang trả về mã 500, 503 hoặc mất quá 5 giây để phản hồi sẽ bị bot tạm bỏ qua. Dùng Google Search Console để theo dõi lỗi crawl.
- Đăng ký sitemap.xml: Gửi tệp
sitemap.xmlqua Google Search Console. Sitemap giúp bot phát hiện trang mới nhanh hơn — nhưng không thay thế liên kết nội bộ.
Lỗi thường gặp
| Lỗi | Dấu hiệu nhận biết | Cách khắc phục |
|---|---|---|
robots.txt chặn toàn bộ site |
Google Search Console báo “Crawled – currently not indexed” cho hầu hết trang | Sửa thành User-agent: * + Allow: / hoặc xóa dòng Disallow: / |
| URL trả về 404/410 | Trang bị liệt kê trong sitemap nhưng bot báo lỗi “Not found” | Khôi phục trang hoặc thiết lập chuyển hướng 301 nếu đã xóa |
| Liên kết nội bộ hỏng (broken internal links) | Bot không thể đi từ trang A sang trang B dù cả hai đều tồn tại | Dùng công cụ như Screaming Frog hoặc Sitebulb để quét và sửa URL sai |
| Trang yêu cầu đăng nhập hoặc cookie | Bot nhận mã 403 hoặc nội dung trống | Loại bỏ yêu cầu xác thực đối với bot (dùng kiểm tra User-Agent) hoặc cung cấp phiên bản public |
Ví dụ thực tế
Một website bán hàng điện máy có danh mục sản phẩm “Máy hút bụi”, nhưng trang danh mục này không có liên kết nào từ trang chủ, menu hay blog. Đồng thời, file robots.txt lại ghi: Disallow: /san-pham/. Kết quả: Googlebot không bao giờ biết đến trang này. Sau khi sửa robots.txt và thêm liên kết từ trang chủ, trong vòng 3 ngày, trang xuất hiện trong Google Search Console với trạng thái “Crawled and indexed”, và sau 2 tuần bắt đầu xuất hiện trên từ khóa “máy hút bụi giá rẻ” ở vị trí top 20.
Câu hỏi thường gặp
Crawlability khác indexing như thế nào?
Crawlability là khả năng bot truy cập và đọc trang. Indexing là giai đoạn sau đó, khi Google phân tích, lưu trữ và quyết định đưa trang vào cơ sở dữ liệu tìm kiếm. Một trang có thể được crawl nhưng không được index (do noindex, trùng lặp, chất lượng thấp…).
Có cần tối ưu crawl budget không?
Với website nhỏ (< 1.000 trang), crawl budget gần như không đáng lo. Với site lớn (trên 50.000 trang), việc phân bổ tài nguyên crawl hợp lý rất quan trọng. Cách làm: loại bỏ trang không cần index (filter pages, session IDs), dùng canonical cho nội dung tương tự, và ưu tiên liên kết đến trang quan trọng.
JavaScript ảnh hưởng đến crawlability không?
Có — nhưng mức độ phụ thuộc vào cách triển khai. Googlebot có thể render JS, nhưng chậm hơn HTML tĩnh. Nếu nội dung chính hoặc liên kết quan trọng chỉ xuất hiện sau khi chạy JS, bot có thể bỏ sót. Giải pháp an toàn: render sẵn (SSR) hoặc gửi nội dung quan trọng qua HTML thuần.