1. Sự Sụp Đổ Của OCR Truyền Thống: Nỗi Đau “Rác Vào, Rác Ra”

Trong kiến trúc Enterprise RAG, công thức tàn nhẫn nhất là: Garbage In = Garbage Out (Rác vào thì Rác ra).

Trước năm 2025, các kỹ sư dữ liệu thường sử dụng các công cụ OCR truyền thống (như Tesseract, PyMuPDF) để bóc tách văn bản từ tài liệu PDF. Kết quả là một thảm họa: Cấu trúc của các bảng cáo cáo tài chính bị vỡ nát, các cột số liệu bị dính liền vào nhau, và các sơ đồ kỹ thuật bị bỏ qua hoàn toàn. Khi Vector Database chứa một mớ text hỗn độn mất gốc (Context loss), dù bạn dùng LLM mạnh đến đâu, câu trả lời nhận được cũng chỉ là ảo giác (Hallucination).

Năm 2026 đánh dấu sự lật đổ của OCR cơ học để tiến tới kỷ nguyên Multimodal Document Understanding — nơi AI không chỉ “đọc” chữ, mà nó “nhìn” toàn bộ trang tài liệu.


2. Agentic Parsing: Cuộc Chiến Bóc Tách (LlamaParse vs Unstructured.io)

Để đưa dữ liệu thô vào LLM một cách hoàn hảo, các doanh nghiệp hiện nay chia luồng xử lý (Data Pipeline) thành các chiến lược rõ rệt, sử dụng sức mạnh của Vision-Language Models (VLM).

Unstructured.io: Nền Tảng “Nồi Đồng Cối Đá”

  • Vai trò: Là tiêu chuẩn công nghiệp cho các Data Pipeline diện rộng.
  • Sức mạnh: Khả năng “nuốt” mọi định dạng từ .docx, .pptx, .html đến email. Nó cung cấp khả năng tự lưu trữ (Self-host) tuyệt vời cho các doanh nghiệp bị ràng buộc bởi luật bảo mật (Air-gapped environments).
  • Chiến lược: Dùng Unstructured để xử lý hàng loạt các tài liệu văn bản phổ thông (Standard Documents).

LlamaParse & Docling: Biệt Đội Chuyên Gia (Agentic Extraction)

  • Vai trò: Xử lý các “Ca khó” (Hard PDFs).
  • Sức mạnh: Thay vì dùng luật (Rule-based) để dò bảng, LlamaParseDocling (IBM) dùng thẳng mô hình VLM để “nhìn” bức ảnh trang PDF, sau đó nội suy và vẽ lại cấu trúc bảng biểu ra định dạng Markdown hoặc JSON.
  • Chiến lược: Định tuyến (Routing) các Báo cáo tài chính, Hợp đồng pháp lý phức tạp qua LlamaParse để đảm bảo không một con số nào bị nội suy sai lệch.

3. Cú Sốc ColPali: Kỷ Nguyên “Page-as-Image” Retrieval

Một trong những đột phá chấn động nhất của năm 2026 trong mảng RAG là sự ra đời của ColPali (và các biến thể như ColQwen2.5).

Thay vì cố gắng tìm cách bóc tách chữ, bảng biểu, và hình ảnh ra riêng biệt (một quá trình dễ sinh lỗi), ColPali chọn một con đường cực đoan nhưng hiệu quả: Nhúng (Embed) nguyên cả trang PDF dưới dạng MỘT BỨC ẢNH.

  • Late Interaction: Khi User đặt câu hỏi (VD: “Doanh thu năm 2025 trong biểu đồ cột là bao nhiêu?”), ColPali sử dụng cơ chế Late Interaction để so sánh token của câu hỏi trực tiếp với các “điểm ảnh” (Image Patches) của trang tài liệu.
  • Kết quả: Hệ thống bỏ qua hoàn toàn bước OCR. Nó tìm được chính xác trang PDF chứa biểu đồ đó dựa trên sự thấu hiểu thị giác (Visual Understanding). Đây là Tiêu chuẩn Vàng (Gold Standard) mới cho các loại tài liệu nặng về biểu đồ và kỹ thuật.

4. M³KG-RAG: Xây Dựng Đồ Thị Tri Thức Đa Phương Tiện (Audio & Video)

RAG trong môi trường Enterprise không chỉ có văn bản. Kho tàng tri thức khổng lồ nhất thường nằm trong các bản ghi âm cuộc họp (Zoom/Teams), video đào tạo, hay demo sản phẩm.

Kiến trúc M³KG-RAG (Multi-hop Multimodal Knowledge Graph-enhanced RAG) giải quyết bài toán này thông qua một đường ống (Pipeline) đa luồng:

  1. Xử lý Đa luồng (Multi-Stream Processing): Audio được bóc băng cực chuẩn bằng các mô hình ASR (như Whisper), trong khi luồng hình ảnh của Video được cắt thành các khung hình (frames) để Vision LLM liên tục tạo chú thích (Captioning) cho hành động đang diễn ra.
  2. Khai phá Thực thể (Triplet Extraction): Các Agent tự động trích xuất các chủ thể (Người, Sự kiện, Hành động) từ cả Text, Hình ảnh và Audio, sau đó kết nối chúng thành một Mạng lưới Đồ thị (Knowledge Graph).
  3. Time-Anchoring (Neo Thời Gian): Đây là “Killer Feature”. Mọi dữ liệu (Node) trong đồ thị đều được gắn siêu dữ liệu (Metadata) về thời gian. Khi hệ thống trả lời, nó không chỉ đưa ra đoạn text, mà còn cung cấp một Deep Link, cho phép người dùng click vào và xem lại đúng phút 03:15 của đoạn video cuộc họp gốc.

5. Agentic Chunking: Từ Bỏ Việc “Cắt Thịt” Cơ Học

Sau khi đã bóc tách dữ liệu hoàn hảo, bước cuối cùng là cắt nhỏ chúng (Chunking) để lưu vào Vector DB. Ở năm 2026, Fixed-size Chunking (Cắt theo số lượng từ cố định, ví dụ: 500 token/chunk) bị coi là “Cắt thịt” cơ học, làm đứt gãy ý nghĩa của câu văn.

Các hệ thống SOTA (State-of-the-Art) hiện sử dụng Agentic Chunking (hoặc Semantic Chunking):

  • Dùng một LLM nhỏ, tốc độ cao đóng vai trò làm “Người chia bài”. Nó đọc lướt tài liệu và tự phân tích ngữ nghĩa để tìm ra ranh giới logic (Ví dụ: Chuyển sang chủ đề mới, hết một chương, hay kết thúc một bảng dữ liệu).
  • Mặc dù chi phí xử lý cao hơn, nhưng nó đảm bảo Bảo toàn Ngữ cảnh (Context Preservation) tuyệt đối, giúp tỷ lệ tìm kiếm chính xác (Recall) tăng vọt.

6. Tổng Kết

Nếu Phần 1 cung cấp cho bạn một Kiến trúc Não bộ (Agentic GraphRAG), thì Phần 2 này chính là cách bạn nạp nguyên liệu tinh khiết nhất vào bộ não đó.

Tuy nhiên, dù dữ liệu có sạch đến đâu, nếu chiến lược nén (Embedding) và tra cứu (Retrieval) của bạn bị sai, hệ thống vẫn sẽ chậm như rùa bò và tốn hàng ngàn đô la tiền API.

Trong Phần 3: Nghệ Thuật Chunking & Semantic Caching, chúng ta sẽ đi sâu vào kỹ thuật tối thượng của năm 2026: Late Chunking (Bảo toàn ngữ cảnh trước khi cắt) và cách sử dụng Redis làm Semantic Caching để giảm 70% chi phí gọi LLM API.