SEO Tools & Software

Bot Traffic Segmentation

Phân tách và phân tích lưu lượng truy cập từ các bot tìm kiếm riêng biệt (Googlebot, Bingbot, YandexBot…) trong log file hoặc analytics.

3 lượt xem Cập nhật: 26/05/2026

Bot Traffic Segmentation là gì?

Bot Traffic Segmentation (Phân tách lưu lượng bot) là quá trình nhận diện, phân loại và tách riêng lưu lượng truy cập từ các bot tìm kiếm như Googlebot, Bingbot, YandexBot, DuckDuckGo Bot… trong dữ liệu log server hoặc công cụ phân tích (Google Analytics, GA4, Matomo…). Mục tiêu là tách biệt bot khỏi người dùng thật để đánh giá chính xác hiệu suất SEO, phát hiện vấn đề crawl, và tối ưu cấu trúc website.

Tại sao quan trọng trong SEO?

Khi bot tìm kiếm truy cập website, chúng không tạo chuyển đổi, nhưng ảnh hưởng trực tiếp đến cách Google hiểu, lập chỉ mục và xếp hạng trang. Nếu không phân tách:

  • Báo cáo lượt xem trang (pageviews), thời gian ở lại, tỷ lệ thoát bị sai lệch do bot chiếm tới 30–70% lưu lượng trên một số site (theo nghiên cứu của Screaming Frog và DeepCrawl năm 2023);
  • Không phát hiện được lỗi crawl (404, 500, redirect vòng lặp) khi bot gặp phải;
  • Không biết bot nào đang crawl nhiều nhất — từ đó không điều chỉnh robots.txt, Crawl-Delay hay tốc độ crawl hợp lý;
  • Không kiểm soát được việc index dư thừa (ví dụ: bot crawl trang filter, pagination, phiên bản mobile cũ…).

Phân tách bot giúp SEO chuyên sâu tập trung vào dữ liệu có ý nghĩa: hành vi người dùng thật + tín hiệu crawl thực tế từ từng hệ thống tìm kiếm.

Cách hoạt động

Bot Traffic Segmentation dựa trên ba yếu tố chính:

  1. User-Agent string: Mỗi bot gửi chuỗi nhận dạng riêng (ví dụ: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)). Đây là cách phổ biến nhất để phân loại — nhưng dễ giả mạo nên cần kết hợp với yếu tố khác.
  2. IP address & reverse DNS lookup: Các bot chính thống (Googlebot, Bingbot…) công khai danh sách IP và yêu cầu xác minh qua DNS (ví dụ: IP của Googlebot phải trả về tên miền googlebot.com). Đây là tiêu chuẩn đáng tin cậy nhất.
  3. Hành vi crawl: Tần suất yêu cầu, đường dẫn truy cập, header HTTP (như X-Forwarded-For), thời gian giữa các request… giúp phát hiện bot giả hoặc malicious crawler.

Lưu ý: Một số bot không gửi User-Agent rõ ràng hoặc dùng User-Agent giống trình duyệt — lúc này cần dựa vào IP và hành vi. Việc xác minh qua DNS là bắt buộc nếu muốn phân loại chính xác.

Hướng dẫn thực hiện

Dưới đây là quy trình thực hiện Bot Traffic Segmentation theo hai phương pháp phổ biến:

1. Từ log file server (phương pháp chính xác nhất)

  1. Thu thập log đầy đủ: Đảm bảo server ghi lại ít nhất: IP, thời gian, phương thức HTTP (GET/POST), đường dẫn, mã phản hồi (status code), User-Agent, referrer.
  2. Xác minh IP bot: Dùng công cụ như Google’s official IP tool hoặc script Python với socket.gethostbyaddr() để kiểm tra reverse DNS.
  3. Phân nhóm theo bot: Dùng công cụ như Logstash, GoAccess, hoặc Excel/Power Query để lọc theo User-Agent + IP validation. Ví dụ: chỉ coi là Googlebot khi cả User-Agent đúng IP xác minh thành công.
  4. So sánh với dữ liệu index coverage: Đối chiếu số lượt crawl từ log với báo cáo Index Coverage trong Google Search Console để kiểm tra tính nhất quán.

2. Từ Google Analytics / GA4

GA4 không ghi nhận bot theo mặc định — nhưng có thể loại bỏ phần lớn bằng cách:

  • Bật tùy chọn “Bot Filtering” trong cài đặt tài khoản (Settings → Data Settings → Data Filters → Bot Filtering → On);
  • Tạo segment custom dựa trên điều kiện: Device Category = “Desktop” AND Browser = “Googlebot” (chỉ áp dụng cho GA4 có bật Enhanced Measurement và thu thập User-Agent đầy đủ);
  • Sử dụng BigQuery export (nếu có) để truy vấn trường device.webInfo.browserdevice.category — tuy nhiên độ tin cậy thấp hơn log vì bot thường không chạy JavaScript.

Lỗi thường gặp

1. Nhầm bot giả là bot thật

Dấu hiệu: User-Agent giống Googlebot nhưng IP không xác minh được qua DNS.
Cách khắc phục: Loại bỏ tất cả bot không vượt qua kiểm tra reverse DNS. Không dựa duy nhất vào User-Agent.

2. Bỏ sót bot từ hệ thống tìm kiếm nhỏ

Dấu hiệu: Không thấy YandexBot, NaverBot, BaiduSpider dù site có nội dung tiếng Nga/Hàn/Trung.
Cách khắc phục: Cập nhật danh sách User-Agent và IP từ nguồn chính thức: Yandex, Naver, Baidu.

3. Lọc nhầm người dùng thật thành bot

Dấu hiệu: Người dùng dùng trình duyệt cũ hoặc thiết bị đặc biệt (IoT, smart TV) có User-Agent thiếu thông tin.
Cách khắc phục: Không áp dụng lọc cứng. Chỉ loại trừ khi có cả hai điều kiện: User-Agent khả nghi + hành vi crawl (tốc độ cao, không có cookie/session, không tải JS/CSS).

Ví dụ thực tế

Một website thương mại điện tử Việt Nam (200.000 trang) phát hiện trong log 7 ngày có tổng cộng 12 triệu request. Sau phân tách:

Bot Số request Tỷ lệ Ghi chú
Googlebot (desktop) 4.200.000 35% Crawl ổn định, tập trung vào trang sản phẩm mới
Googlebot (mobile) 3.100.000 26% Có 12% request vào URL chứa tham số ?ref= — cần chặn bằng robots.txt
Bingbot 850.000 7% Chủ yếu crawl trang chủ và blog — chưa index trang danh mục
YandexBot 420.000 3.5% Không crawl trang tiếng Nga (site không hỗ trợ) — OK
Bot giả / malicious 1.900.000 15.8% Đã chặn qua iptables và Cloudflare Firewall Rules
Người dùng thật (đã lọc bot) 1.530.000 12.7% Tăng 22% so với báo cáo GA trước khi lọc — do loại bỏ nhiễu

Kết quả: Đội SEO điều chỉnh robots.txt để hạn chế crawl URL tham số, gửi yêu cầu index thủ công cho Bingbot với trang danh mục, và tối ưu tốc độ server cho YandexBot — sau 3 tuần, số trang được index tăng 18%.

Câu hỏi thường gặp

Bot Traffic Segmentation có cần phần mềm trả phí không?

Không bắt buộc. Bạn có thể dùng công cụ miễn phí như GoAccess, AWStats, hoặc script Python + lệnh grep/awk. Phần mềm trả phí (Screaming Frog Log Analyzer, Oncrawl, DeepCrawl) giúp tự động hóa, phân tích sâu hơn (crawl budget, crawl depth, status code theo bot) — phù hợp với site lớn hơn 50.000 trang.

Google Analytics 4 có phân biệt được Googlebot không?

Không trực tiếp. GA4 không ghi nhận bot vì chúng không chạy JavaScript. Tính năng “Bot Filtering” chỉ loại bỏ một số traffic hiển thị như bot dựa trên mẫu hành vi — không phải xác minh IP/User-Agent thực tế. Kết quả phân tích bot từ GA4 chỉ mang tính tham khảo.

Thời gian phân tích log bao lâu thì đủ?

Tùy trường hợp. Với site vừa (10.000–100.000 trang): phân tích log 7 ngày là đủ để thấy xu hướng crawl. Với site lớn hoặc đa ngôn ngữ: cần tối thiểu 14–30 ngày để bao quát chu kỳ crawl đầy đủ của từng bot (Googlebot thường quét toàn bộ site mỗi 1–4 tuần tùy mức độ cập nhật).