Screaming Frog SEO Spider
Công cụ thu thập dữ liệu (crawler) để kiểm tra kỹ thuật trang web như thẻ meta, redirect, broken links, cấu trúc URL.
Screaming Frog SEO Spider là gì?
Screaming Frog SEO Spider là phần mềm thu thập dữ liệu (crawler) dành riêng cho SEO, giúp kiểm tra kỹ thuật trang web một cách toàn diện. Công cụ này duyệt trang như trình duyệt nhưng không hiển thị giao diện — thay vào đó, nó thu thập và phân tích hàng trăm yếu tố kỹ thuật: từ thẻ tiêu đề (<title>), mô tả meta (<meta name='description'>), liên kết hỏng (broken links), chuyển hướng (redirects), mã trạng thái HTTP (200, 301, 404, 500…), cấu trúc URL, thẻ canonical, internal/external links, tốc độ tải tài nguyên, và cả dữ liệu schema markup.
Phiên bản miễn phí giới hạn ở 500 URL mỗi lần quét. Phiên bản trả phí (từ £149/năm) bỏ giới hạn này và bổ sung tính năng xuất báo cáo nâng cao, tích hợp API, hỗ trợ JavaScript rendering (qua headless Chrome), và quét site lớn hơn 1 triệu URL — tùy trường hợp cấu hình máy và thời gian chờ.
Tại sao quan trọng trong SEO?
SEO kỹ thuật là nền tảng để công cụ tìm kiếm hiểu, lập chỉ mục và xếp hạng trang web. Nếu trang bị lỗi kỹ thuật nghiêm trọng — như redirect chuỗi dài, trang 404 không được xử lý, thẻ meta trùng lặp hoặc thiếu, hoặc cấu trúc URL lộn xộn — Google có thể không lập chỉ mục đúng, giảm độ tin cậy hoặc thậm chí loại khỏi kết quả tìm kiếm.
Screaming Frog giúp phát hiện sớm những vấn đề này trước khi ảnh hưởng đến thứ hạng. Nó đặc biệt hữu ích trong các tình huống: kiểm tra sau khi chuyển đổi nền tảng (ví dụ từ WordPress sang Shopify), sau khi tái cấu trúc website, trước khi ra mắt site mới, hoặc trong quy trình kiểm tra định kỳ hàng quý.
Cách hoạt động
Screaming Frog hoạt động theo cơ chế crawler đơn giản nhưng mạnh mẽ:
- Nhập URL gốc (ví dụ:
https://example.com) — đây là điểm bắt đầu. - Công cụ gửi yêu cầu HTTP tới máy chủ, đọc phản hồi (status code, headers, HTML).
- Phân tích nội dung HTML để trích xuất tất cả đường dẫn
<a href>,<link rel='canonical'>,<meta property='og:url'>… - Với mỗi URL mới tìm thấy, lặp lại bước 2–3 — nhưng tuân thủ robots.txt, nofollow, và giới hạn độ sâu (crawl depth) do người dùng thiết lập.
- Dữ liệu được lưu vào bảng Excel hoặc CSV, đồng thời hiển thị trực quan qua giao diện phần mềm với bộ lọc, màu sắc cảnh báo và thống kê tức thì.
Lưu ý: Screaming Frog không thực thi JavaScript mặc định. Để thu thập nội dung render bằng JS (như React/Vue), cần bật chế độ “Rendering” và cài đặt Chromium — lúc này tốc độ quét chậm hơn rõ rệt và tiêu tốn nhiều RAM hơn.
Hướng dẫn thực hiện
Dưới đây là quy trình quét chuẩn cho người mới bắt đầu:
- Tải và cài đặt: Truy cập screamingfrog.co.uk, tải phiên bản phù hợp (Windows/macOS/Linux), cài đặt mà không cần đăng ký.
- Mở phần mềm → nhập URL gốc vào ô “Enter URL to crawl”, chọn “Start crawl”.
- Tùy chỉnh trước khi quét (khuyến khích):
- Vào Configuration → Spider: Thiết lập độ sâu tối đa (Default: 10), giới hạn số URL (nếu cần), bỏ chọn “Crawl subdomains” nếu chỉ muốn quét miền chính.
- Vào Configuration → Rendering: Bật “JavaScript Rendering” nếu site dùng SPA — nhưng chỉ khi thật sự cần.
- Vào Configuration → Custom: Thêm header User-Agent nếu cần giả lập thiết bị di động.
- Chạy quét: Nhấn nút “Start crawl”. Thời gian phụ thuộc vào số URL, tốc độ máy chủ và độ phức tạp của trang. Với site ~10.000 trang, thời gian trung bình là 5–15 phút.
- Phân tích kết quả: Sau khi hoàn tất, chuyển sang tab “Overview” để xem tổng quan. Dùng tab “Response Codes” để lọc 404, “Title 1” để kiểm tra tiêu đề thiếu/trùng, “Meta Description” để đánh giá mô tả, “H1” để kiểm tra tiêu đề phụ.
- Xuất báo cáo: Vào Export → Export all để lưu dưới dạng CSV/Excel, hoặc chọn từng tab để xuất riêng (ví dụ: chỉ danh sách 404).
Lỗi thường gặp
Dưới đây là 4 lỗi phổ biến khi dùng Screaming Frog và cách khắc phục:
| Lỗi | Nguyên nhân | Cách khắc phục |
|---|---|---|
| Quét dừng giữa chừng hoặc timeout | Máy chủ chặn yêu cầu (do rate limiting), hoặc kết nối mạng không ổn định | Giảm tốc độ quét (Configuration → Spider → Request Delay ≥ 1000ms); thêm header User-Agent hợp lệ; kiểm tra robots.txt có chặn User-agent: ScreamingFrog hay không. |
| Không thấy nội dung động (JS) | Chế độ rendering tắt, hoặc Chromium chưa cài đặt đầy đủ | Bật “JavaScript Rendering”, đảm bảo đã cài Chromium bản tương thích (xem hướng dẫn tại Screaming Frog Knowledge Base). Kiểm tra log để xác nhận lỗi “Failed to launch browser”. |
| URL bị trùng/duplicate (có dấu / cuối, www/non-www) | Site chưa thiết lập chuẩn hóa (canonical) hoặc redirect nhất quán | Sử dụng tab “Duplicate Content” để phát hiện; kiểm tra thẻ <link rel='canonical'>; cấu hình redirect 301 tại máy chủ hoặc CDN để thống nhất phiên bản. |
| Thẻ meta description bị cắt ngắn hoặc thiếu | Độ dài vượt 160 ký tự (gây cắt trên SERP), hoặc không tồn tại trên nhiều trang | Dùng tab “Meta Description” → lọc “Length > 160” và “Empty”; xuất danh sách → cập nhật nội dung thủ công hoặc qua CMS/bulk edit. |
Ví dụ thực tế
Một cửa hàng thời trang Việt Nam (domain: https://shopthoitrang.vn) vừa nâng cấp từ Magento 1 sang Shopify. Đội SEO chạy Screaming Frog với cấu hình:
- Độ sâu: 5
- Bật JavaScript Rendering (vì sản phẩm load bằng AJAX)
- Thời gian chờ: 10.000ms
- Giới hạn: 50.000 URL
- 317 trang trả về mã 404 — chủ yếu do URL cũ không được redirect.
- 12% trang thiếu thẻ
<title>— do template sản phẩm chưa cập nhật. - 48 trang có thẻ canonical trỏ sai (trỏ về URL cũ).
- 21 trang có tiêu đề trùng lặp (tất cả đều là “Sản phẩm mới” — chưa cá nhân hóa).
Câu hỏi thường gặp
Screaming Frog có quét được site password-protected không?
Có, nhưng cần cấu hình thủ công: vào Configuration → Authentication, chọn “Basic Authentication”, nhập username/password. Không hỗ trợ form login (login page dạng HTML).
Có thể quét API hoặc file XML sitemap không?
Có. Bạn có thể nhập trực tiếp URL sitemap.xml (ví dụ: https://example.com/sitemap.xml) làm điểm bắt đầu — Screaming Frog sẽ tự động parse và quét toàn bộ URL bên trong. Với API, chỉ quét được nếu endpoint trả về HTML hợp lệ (không hỗ trợ JSON API thuần).
Phần mềm có hỗ trợ tiếng Việt không?
Giao diện phần mềm chỉ tiếng Anh. Tuy nhiên, Screaming Frog xử lý hoàn toàn tốt URL, thẻ meta, nội dung tiếng Việt — bao gồm cả dấu, ký tự Unicode và encoding UTF-8. Không cần cấu hình đặc biệt.