Phần 2: Agentic Ingestion & Multimodal Knowledge Graphs
1. Sự Sụp Đổ Của OCR Truyền Thống: Nỗi Đau “Rác Vào, Rác Ra” Trong kiến trúc Enterprise RAG, công thức tàn nhẫn nhất là: Garbage In = Garbage Out (Rác vào thì Rác ra). Trước năm 2025, các kỹ sư dữ liệu thường sử dụng các công cụ OCR truyền thống (như Tesseract, PyMuPDF) để bóc tách văn bản từ tài liệu PDF. Kết quả là một thảm họa: Cấu trúc của các bảng cáo cáo tài chính bị vỡ nát, các cột số liệu bị dính liền vào nhau, và các sơ đồ kỹ thuật bị bỏ qua hoàn toàn. Khi Vector Database chứa một mớ text hỗn độn mất gốc (Context loss), dù bạn dùng LLM mạnh đến đâu, câu trả lời nhận được cũng chỉ là ảo giác (Hallucination). ...