Phần 2: Agentic Ingestion & Multimodal Knowledge Graphs

1. Sự Sụp Đổ Của OCR Truyền Thống: Nỗi Đau “Rác Vào, Rác Ra” Trong kiến trúc Enterprise RAG, công thức tàn nhẫn nhất là: Garbage In = Garbage Out (Rác vào thì Rác ra). Trước năm 2025, các kỹ sư dữ liệu thường sử dụng các công cụ OCR truyền thống (như Tesseract, PyMuPDF) để bóc tách văn bản từ tài liệu PDF. Kết quả là một thảm họa: Cấu trúc của các bảng cáo cáo tài chính bị vỡ nát, các cột số liệu bị dính liền vào nhau, và các sơ đồ kỹ thuật bị bỏ qua hoàn toàn. Khi Vector Database chứa một mớ text hỗn độn mất gốc (Context loss), dù bạn dùng LLM mạnh đến đâu, câu trả lời nhận được cũng chỉ là ảo giác (Hallucination). ...

May 17, 2026 · 5 min · Tuan Anh

GraphRAG và Naive RAG: Hướng Dẫn Kiến Trúc Doanh Nghiệp

Đại đa số các phương án triển khai RAG (Retrieval-Augmented Generation) đều mang bộ mặt giống nhau: băm tài liệu thành từng mảng nhỏ (chunk), nhồi embedding vào thành vector, quăng vào một cái cơ sở dữ liệu vector (vector database), lôi kéo trích xuất lại thông qua tương quan cosine (cosine similarity), và dồn ép cụm top-K chunk đấy vào cái context LLM. Cú đánh này rất mượt cho mấy dạng câu hỏi đáp Q&A quanh một trang văn bản cỏn con. Nhưng nó lại nát bét 1 cách rập khuôn (systematically) hễ chạm tay vào đống kho tri thức doanh nghiệp cỡ bự, nơi mà mẩu đáp án cho 1 câu hỏi ứ chịu bám dính vào độc 1 cái chunk tài liệu rời rạc, mà vắt cựa dính nhằng nhịt vào những mối dây mơ rễ má liên hệ (relationships) kết chéo chằng chịt hàng tá thực thể (entities) xuyên nhau. ...

June 1, 2026 · 27 min · Tuan Anh