AI & SEO

AI-Native Schema Markup

Cấu trúc schema được thiết kế đặc biệt để hỗ trợ khả năng hiểu và tổng hợp của AI, ví dụ như schema cho LLM training signals hoặc content provenance.

3 lượt xem Cập nhật: 27/05/2026

AI-Native Schema Markup là gì?

AI-Native Schema Markup là dạng đánh dấu cấu trúc (schema markup) được thiết kế riêng để giúp mô hình ngôn ngữ lớn (LLM) và hệ thống AI khác hiểu sâu hơn về nội dung trang web — không chỉ để hiển thị kết quả tìm kiếm như schema truyền thống, mà còn để hỗ trợ huấn luyện, xác minh nguồn gốc nội dung (provenance), phân loại tín hiệu độ tin cậy hoặc cung cấp dữ liệu có ngữ nghĩa cho việc tổng hợp tự động.

Khác với schema.org — vốn tập trung vào SEO truyền thống và rich result — AI-Native Schema Markup chưa phải tiêu chuẩn chính thức do W3C hay schema.org công bố. Thay vào đó, đây là nhóm các thực tiễn đang phát triển nhanh, do các tổ chức như Coalition for Content Provenance and Authenticity (C2PA), World Wide Web Consortium (W3C) trong dự án Verifiable Credentials, và một số nhà phát triển LLM (ví dụ: Google với Structured Data for LLM Training Signals thử nghiệm nội bộ) đề xuất.

Tại sao quan trọng trong SEO?

Khi công cụ tìm kiếm ngày càng tích hợp AI (như Google Search Generative Experience – SGE), khả năng trang web được chọn làm nguồn tham chiếu đáng tin cậy cho câu trả lời tổng hợp phụ thuộc nhiều vào mức độ rõ ràng của tín hiệu ngữ nghĩa và độ minh bạch về nguồn gốc nội dung.

AI-Native Schema Markup giúp:

  • Tăng cơ hội xuất hiện trong kết quả tổng hợp (AI-generated answers), vì hệ thống dễ trích xuất và kiểm chứng thông tin;
  • Cải thiện độ tin cậy (trustworthiness) khi gắn thẻ nguồn, tác giả, thời điểm cập nhật và phương pháp tạo nội dung (tự viết / AI-assisted / hoàn toàn do AI sinh);
  • Hỗ trợ kiểm soát cách nội dung được sử dụng trong huấn luyện mô hình — ví dụ: dùng thuộc tính "aiTrainingUsage": "opt-out" để từ chối đưa dữ liệu vào bộ huấn luyện công khai;
  • Phù hợp với xu hướng mới: Google và Bing đều công bố ưu tiên nội dung có metadata minh bạch về provenance trong các phiên bản AI search sắp tới (theo báo cáo chính thức tháng 3/2024).

Cách hoạt động

AI-Native Schema Markup hoạt động bằng cách bổ sung các thuộc tính mở rộng vào JSON-LD hoặc Microdata, tập trung vào ba lớp thông tin:

  1. Nguồn gốc nội dung (Provenance): ai tạo, khi nào, bằng công cụ gì, có chỉnh sửa thủ công không;
  2. Tín hiệu huấn luyện (Training Signals): nội dung có được phép dùng để huấn luyện AI không, mức độ can thiệp của con người;
  3. Độ tin cậy ngữ nghĩa (Semantic Trust): xác thực danh tính chủ sở hữu qua DID (Decentralized Identifier), chữ ký số, hoặc liên kết với hồ sơ xác minh (ví dụ: ORCID cho nhà nghiên cứu).

Các hệ thống AI đọc metadata này để quyết định: có nên trích dẫn nội dung không? Có cần cảnh báo “được tạo bởi AI” không? Có nên ưu tiên nguồn này hơn những nguồn thiếu minh bạch không?

Hướng dẫn thực hiện

Dưới đây là 5 bước triển khai AI-Native Schema Markup an toàn và tuân thủ thực tiễn tốt nhất (theo tài liệu kỹ thuật của C2PA và W3C截至 tháng 6/2024):

  1. Xác định mục tiêu sử dụng: chọn giữa provenance-only, training signal control, hay cả hai. Không bắt buộc phải dùng hết mọi trường.
  2. Chọn định dạng: ưu tiên JSON-LD (vì dễ tích hợp và tương thích cao). Đặt trong thẻ <head> hoặc cuối <body>.
  3. Thêm thuộc tính mở rộng: dùng namespace tùy chỉnh hoặc schema.org mở rộng (ví dụ: https://schema.org/aiTrainingUsage — thuộc tính được Google ghi nhận trong tài liệu thử nghiệm tháng 1/2024).
  4. Kết nối với xác thực ngoài: nếu hỗ trợ, thêm "verifiedCredential": "..." hoặc "decentralizedId": "did:web:..." để tăng độ tin cậy.
  5. Kiểm tra và giám sát: dùng công cụ như Google Rich Results Test (cho phần schema cơ bản) và C2PA Validator (cho metadata chứng thực).

Lỗi thường gặp

Dưới đây là 4 lỗi phổ biến và cách khắc phục:

Lỗi Mô tả Cách khắc phục
Sử dụng thuộc tính không được hỗ trợ Dùng "aiTrainingConsent": true trong khi chưa có tiêu chuẩn chính thức — gây cảnh báo hoặc bị bỏ qua Chỉ dùng thuộc tính đã được ghi nhận trong tài liệu công khai: aiTrainingUsage, contentSource, humanReviewDate. Các thuộc tính khác ghi rõ “tùy trường hợp”.
Thiếu xác thực nguồn Gắn thẻ "isGeneratedByAI": true nhưng không cung cấp thông tin người kiểm duyệt hoặc thời điểm kiểm tra Bắt buộc đi kèm "humanReviewedBy": "...""humanReviewDate": "YYYY-MM-DD" nếu khai báo nội dung có yếu tố AI.
Xung đột schema Trùng lặp @type giữa schema.org chuẩn và schema mở rộng, gây lỗi phân tích Dùng namespace riêng (ví dụ: "ai": "https://example.org/ai#") và khai báo rõ ràng trong @context.
Bỏ qua kiểm thử Không kiểm tra bằng validator chuyên biệt → metadata không được đọc đúng bởi hệ thống AI Luôn chạy qua C2PA Validator hoặc trình kiểm tra schema tùy chỉnh của nhà cung cấp LLM (nếu có quyền truy cập).

Ví dụ thực tế

Dưới đây là đoạn JSON-LD mẫu cho bài báo khoa học, tích hợp cả provenance và training signal:

{ "@context": [ "https://schema.org", {"ai": "https://example.org/ai#"} ], "@type": "Article", "headline": "Ảnh hưởng của biến đổi khí hậu đến đa dạng sinh học Việt Nam", "datePublished": "2024-05-12", "author": { "@type": "Person", "name": "Nguyễn Văn A", "sameAs": "https://orcid.org/0000-0001-2345-6789" }, "contentSource": "original-research", "aiTrainingUsage": "opt-out", "humanReviewDate": "2024-06-01", "humanReviewedBy": "TS. Lê Thị B", "verifiedCredential": "https://trust.example.edu/cred/abc123" }

→ Đoạn mã trên cho biết: bài viết do con người viết, không cho phép dùng huấn luyện AI, đã được chuyên gia kiểm tra ngày 1/6/2024, và có chứng nhận xác thực từ tổ chức giáo dục.

Câu hỏi thường gặp

AI-Native Schema Markup có thay thế schema.org không?

Không. Đây là lớp bổ sung, không phải thay thế. Bạn vẫn cần schema.org chuẩn (Article, Organization…) để đảm bảo hiển thị rich result. AI-Native Schema Markup là phần mở rộng nhằm phục vụ AI, không ảnh hưởng đến SEO truyền thống.

Google có hỗ trợ chính thức chưa?

Tính đến tháng 6/2024, Google chưa công bố hỗ trợ chính thức trong Search Console hay công cụ kiểm tra. Tuy nhiên, họ đã thử nghiệm thuộc tính aiTrainingUsage trong môi trường nội bộ và khuyến khích các nhà xuất bản áp dụng sớm theo nguyên tắc “minh bạch là ưu tiên”. Việc triển khai sớm giúp chuẩn bị cho các cập nhật sắp tới.

Có cần chứng thực bằng blockchain không?

Không bắt buộc. Chứng thực bằng DID hoặc chữ ký số là tùy chọn nâng cao để tăng độ tin cậy. Với đa số website, việc khai báo rõ ràng contentSource, humanReviewDateaiTrainingUsage đã đủ để đáp ứng yêu cầu cơ bản của AI-Native Schema Markup.