Data Engineering SFT: NEFTune & SemDeDup | SLM Playbook

Trong kỷ nguyên của LLMs/SLMs, câu slogan kinh điển của ngành dữ liệu: “Garbage In, Garbage Out” chưa bao giờ đúng hơn thế. Khi thực hiện huấn luyện tinh chỉnh có giám sát (Supervised Fine-Tuning - SFT) cho các mô hình ngôn ngữ nhỏ (SLMs), chất lượng và cấu trúc dữ liệu đóng vai trò quyết định 90% hiệu năng thực chiến của mô hình sau khi train. Việc nhồi nhét hàng triệu dòng dữ liệu hội thoại thu thập thô (raw web scrape hoặc synthetic data cấp thấp) chỉ khiến mô hình bị ngộ độc, quá khớp (overfitting) với các câu trả lời rập khuôn và tiêu tốn hàng nghìn giờ GPU vô ích. ...

May 22, 2026 · 10 min · Tuan Anh

Sự Đứt Gãy Của Naive RAG Và Kỷ Nguyên GraphRAG

Nếu bạn đã từng xây dựng một chatbot nội bộ cho công ty bằng cách cắt nhỏ tài liệu (chunking), tạo vector (embedding), và nhét vào Pinecone hoặc Milvus… bạn chắc chắn đã gặp phải cảnh này: User: “Doanh thu quý 3 của sản phẩm A là bao nhiêu, và nó ảnh hưởng thế nào đến chiến lược quý 4?” Bot: (Trả lời ngập ngừng, đưa ra con số của quý 2 năm ngoái, và hoàn toàn mất bối cảnh về chiến lược). ...

May 17, 2026 · 3 min · Tuan Anh