Phần 3: Nghệ Thuật Chunking & Semantic Caching

1. Lời Mở Đầu: Sự Thất Bại Của Chunking Cơ Học Khi xây dựng RAG, nếu bạn chỉ cắt tài liệu bằng các hàm RecursiveCharacterTextSplitter truyền thống (ví dụ: cắt mỗi khối 500 token), bạn đang tự phá hủy hệ thống của mình. Việc cắt xén cơ học sẽ làm đứt gãy các đại từ nhân xưng (“nó”, “họ”, “dự án này”) và làm mất đi bối cảnh tổng thể (Context loss). Một đoạn văn giải thích về “Khoản bồi thường” ở trang 10 sẽ hoàn toàn vô nghĩa đối với LLM nếu nó bị cắt rời khỏi “Tên hợp đồng và Các bên liên quan” nằm ở trang 1. ...

May 17, 2026 · 5 min · Tuan Anh