Crawl Depth Analysis
Đánh giá mức độ sâu (số bước từ trang chủ) mà crawler có thể tiếp cận các URL, ảnh hưởng đến khả năng lập chỉ mục.
Crawl Depth Analysis là gì?
Crawl Depth Analysis (phân tích độ sâu thu thập) là quá trình đo lường số bước (số lần nhấp chuột hoặc số lượt chuyển tiếp từ liên kết) mà công cụ tìm kiếm — như Googlebot — cần để truy cập một URL cụ thể, bắt đầu từ trang chủ (homepage). Mỗi bước đại diện cho một cấp độ liên kết: trang chủ là độ sâu 0, trang danh mục con trực tiếp là độ sâu 1, trang sản phẩm trong danh mục là độ sâu 2, và cứ thế tăng dần.
Đây không phải là chỉ số do Google công bố chính thức, mà là một thông số phân tích nội bộ được các công cụ SEO (như Screaming Frog, DeepCrawl, Sitebulb) tính toán dựa trên cấu trúc liên kết thực tế của website. Độ sâu thu thập ảnh hưởng trực tiếp đến khả năng lập chỉ mục — vì các URL ở độ sâu lớn (thường ≥ 5) có nguy cơ bị bỏ qua hoặc ưu tiên thấp hơn trong chu kỳ thu thập.
Tại sao quan trọng trong SEO?
Googlebot có giới hạn tài nguyên thu thập (crawl budget) cho mỗi website — bao gồm thời gian và số lượng URL được duyệt mỗi lần ghé thăm. Nếu nhiều URL nằm ở độ sâu cao, chúng dễ bị:
- Thu thập muộn hơn hoặc không đủ tần suất;
- Bị loại khỏi vòng lập chỉ mục do thiếu tín hiệu quan trọng (liên kết nội bộ, authority, thời gian cập nhật);
- Gặp vấn đề về thứ tự ưu tiên — đặc biệt khi trang chủ hoặc các trang cấp cao chứa quá nhiều liên kết ‘rác’ hoặc không liên quan.
Một nghiên cứu năm 2023 của DeepCrawl trên 1.200 website thương mại điện tử cho thấy: 68% URL có độ sâu ≥ 4 không xuất hiện trong kết quả tìm kiếm sau 90 ngày, dù nội dung hợp lệ và không bị chặn bởi robots.txt. Điều này khẳng định mối liên hệ mạnh giữa độ sâu thu thập và khả năng hiển thị trên công cụ tìm kiếm.
Cách hoạt động
Crawl Depth Analysis hoạt động bằng cách mô phỏng hành vi crawler:
- Công cụ bắt đầu từ URL gốc (thường là trang chủ), gán độ sâu = 0;
- Duyệt toàn bộ thẻ
<a href="...">trên trang đó, gán độ sâu = 1 cho tất cả URL đích; - Với mỗi URL mới, tiếp tục thu thập liên kết bên trong — độ sâu tăng thêm 1 ở mỗi cấp;
- Quá trình dừng khi đạt giới hạn cấu hình (số mức tối đa, số URL tối đa, hoặc thời gian chạy).
Lưu ý: Công cụ không phân biệt liên kết theo thuộc tính rel="nofollow" hay rel="canonical" khi tính độ sâu — vì crawler vẫn đọc và xử lý chúng (dù không truyền PageRank). Tuy nhiên, các liên kết JavaScript hoặc tải động qua AJAX thường không được phát hiện trừ khi công cụ hỗ trợ render (ví dụ: Sitebulb với chế độ Chrome Render).
Hướng dẫn thực hiện
Dưới đây là quy trình chuẩn để phân tích độ sâu thu thập bằng công cụ phổ biến nhất — Screaming Frog SEO Spider (phiên bản miễn phí hoặc trả phí):
- Thiết lập cơ bản: Nhập URL trang chủ → Chọn Configuration > Spider > Crawl Limits → Đặt Maximum Depth từ 5–10 (tùy quy mô site);
- Bắt đầu thu thập: Nhấn Start → chờ hoàn tất (thời gian phụ thuộc vào số URL và tốc độ máy chủ);
- Xuất dữ liệu độ sâu: Vào Export > Internal URLs → chọn cột Depth cùng các trường liên quan (Status Code, Title, Inlinks, HTTP Status);
- Phân tích trong Excel/Google Sheets: Dùng hàm
=COUNTIF()để đếm số URL theo từng mức độ sâu; lọc các URL có Depth ≥ 5 và kiểm tra xem chúng có được liên kết từ ít nhất 2 nguồn trở lên hay không; - Điều chỉnh cấu trúc: Với nhóm URL sâu, xác định đường dẫn ngắn nhất từ trang chủ (qua menu, breadcrumb, footer, hoặc internal link chiến lược) và bổ sung liên kết phù hợp.
Lỗi thường gặp
Dưới đây là 3 lỗi phổ biến khi phân tích độ sâu thu thập và cách khắc phục:
- Lỗi 1: Đặt Maximum Depth quá thấp (ví dụ: chỉ 3)
→ Hệ quả: Bỏ sót toàn bộ nội dung ở cấp 4 trở đi (như bài blog con, trang so sánh sản phẩm).
Cách khắc phục: Thiết lập Maximum Depth = 7 cho site dưới 50.000 URL; tăng lên 10 nếu có cấu trúc phân nhánh rõ ràng (ví dụ: tin tức theo chuyên mục – chủ đề – bài viết). - Lỗi 2: Không loại bỏ URL tham số (parameter URLs)
→ Hệ quả: Các phiên bản trùng lặp (ví dụ:/san-pham?sort=price&page=2) được tính là URL riêng, làm méo lệch báo cáo độ sâu.
Cách khắc phục: Trong Screaming Frog, bật Configuration > Spider > Exclude URLs, thêm mẫu regex như\?.*hoặc khai báo tham số trong Parameters để tự động gộp. - Lỗi 3: Bỏ qua ảnh hưởng của redirect chain
→ Hệ quả: Một URL có độ sâu 2 nhưng phải qua 3 redirect (301) sẽ thực tế mất 5 bước để đến — làm giảm hiệu quả thu thập.
Cách khắc phục: Kiểm tra cột Redirect Chain trong báo cáo, rút gọn thành redirect trực tiếp (1 bước) hoặc loại bỏ redirect không cần thiết.
Ví dụ thực tế
Một website bán hàng thời trang có cấu trúc:
Trang chủ (độ sâu 0) → Danh mục Nữ (độ sâu 1) → Áo thun (độ sâu 2) → Áo thun cotton (độ sâu 3) → Áo thun cotton – mã SP12345 (độ sâu 4)
Sau khi phân tích bằng Sitebulb, nhóm SEO phát hiện 23% sản phẩm có độ sâu ≥ 5 do đường dẫn gián tiếp qua trang khuyến mãi hoặc chương trình thành viên. Họ đã điều chỉnh bằng cách:
- Thêm liên kết trực tiếp từ trang danh mục Áo thun tới 10 sản phẩm nổi bật (độ sâu giảm từ 5 xuống 3);
- Loại bỏ 2 lớp redirect ở trang chương trình thành viên;
- Chỉnh sửa breadcrumb để hiển thị đầy đủ 4 cấp, giúp cả người dùng lẫn crawler dễ định vị.
Kết quả sau 6 tuần: Số URL được lập chỉ mục tăng 31%, và 17 sản phẩm trước đây không xuất hiện trên Google đã xuất hiện ở trang 1 với từ khóa dài (long-tail).
Câu hỏi thường gặp
Độ sâu thu thập tối ưu là bao nhiêu?
Theo khuyến nghị của Google (tài liệu năm 2022), hầu hết URL nên nằm trong độ sâu ≤ 3–4 để đảm bảo khả năng thu thập ổn định. Tuy nhiên, với site lớn (trên 100.000 trang), độ sâu 5–6 vẫn chấp nhận được nếu có liên kết nội bộ mạnh và tần suất cập nhật cao. Giá trị tối ưu phụ thuộc vào crawl budget và cấu trúc site — không có con số cố định.
Có nên dùng noindex cho URL có độ sâu cao?
Không nên áp dụng chung chung. Việc gắn noindex chỉ hợp lý nếu URL đó không mang giá trị SEO (ví dụ: trang đăng nhập, trang in, trang so sánh tạm thời). Ngược lại, nếu là trang sản phẩm hoặc bài viết chất lượng, hãy ưu tiên cải thiện liên kết nội bộ thay vì chặn lập chỉ mục.
Crawl Depth Analysis có khác với Click Depth không?
Có. Crawl Depth đo số bước crawler đi qua dựa trên cấu trúc HTML và liên kết. Click Depth đo số lần nhấp chuột từ giao diện người dùng (user journey), thường được thu thập qua Google Analytics hoặc heatmaps. Hai chỉ số có thể trùng nhau nhưng không đồng nghĩa — ví dụ: một trang có thể có crawl depth = 2 nhưng click depth = 5 do người dùng phải đi qua nhiều bước tìm kiếm thủ công.
| Độ sâu (Depth) | Tỷ lệ URL được lập chỉ mục (trung bình) | Gợi ý hành động |
|---|---|---|
| 0–2 | ≥ 95% | Ưu tiên duy trì, kiểm tra tốc độ tải và trải nghiệm người dùng |
| 3–4 | 80–92% | Rà soát liên kết nội bộ, bổ sung breadcrumb và liên kết từ trang chủ nếu cần |
| 5–6 | 45–75% | Phân tích kỹ: có nên giữ? Có thể rút ngắn đường dẫn? Có cần canonical? |
| ≥ 7 | < 20% (tùy trường hợp) | Xem xét loại bỏ, redirect, hoặc yêu cầu index thủ công qua Google Search Console |