Sổ Tay: The SLM Playbook - Fine-Tuning & Model Distillation

Chào mừng bạn đến với Phase 2.5 của lộ trình làm chủ kiến trúc AI-Native.

Khi các mô hình ngôn ngữ nhỏ (Small Language Models - SLMs) như Llama 3 8B, Phi-4 14B hay Qwen 2.5 Coder 7B đạt tới ngưỡng năng lực tiệm cận các mô hình thương mại lớn (Frontier LLMs) trong các tác vụ chuyên biệt, việc tự huấn luyện và vận hành SLMs trở thành chìa khóa vàng để doanh nghiệp tối ưu hóa chi phí (TCO), bảo mật dữ liệu tuyệt đối và làm chủ hoàn toàn công nghệ.

Series này được thiết kế như một Playbook Kỹ Thuật Thực Chiến, đi thẳng từ lý thuyết lượng tử hóa, cơ chế toán học của alignment, cho đến cấu hình code mẫu cụ thể trên Axolotl/vLLM để bạn sẵn sàng áp dụng ngay lập tức vào hạ tầng Enterprise.

Cấu Trúc Sổ Tay SLM Playbook

Bộ tài liệu này được chia thành các phần thực hành chuyên sâu theo trình tự phát triển dự án thực tế:

💡 Kim chỉ nam: Loạt bài viết này không nói suông về lý thuyết AI. Chúng tôi cung cấp các cấu hình YAML chạy được ngay, các biểu thức toán học cốt lõi đứng sau các thuật toán, và mã nguồn Python đã qua kiểm định thực tế trên hạ tầng NVIDIA A10G/H100.

Executive Summary — Sổ Tay Tối Ưu Hóa SLM

← Series hub Next → Trong hai năm qua, làn sóng áp dụng AI trong doanh nghiệp gần như bị chi phối bởi một kiến trúc duy nhất: Tích hợp API với các mô hình đóng khổng lồ (Frontier LLMs). Mặc dù mô hình API-Centric này giúp việc thử nghiệm ý tưởng (PoC) diễn ra nhanh chóng, nó lại nhanh chóng trở thành một gánh nặng khi mở rộng hệ thống ở quy mô Production và phải xử lý dữ liệu nhạy cảm. ...

Kiến Trúc Hybrid AI & Tự Host vLLM | SLM Playbook

Trong giai đoạn đầu của làn sóng AI (2023-2024), kiến trúc mặc định của hầu hết các startup và doanh nghiệp là API-Centric: Gửi mọi request đến OpenAI GPT-4 hoặc Anthropic Claude. Mô hình này rất tiện lợi cho giai đoạn thử nghiệm (PoC) nhưng lại nhanh chóng đổ vỡ khi hệ thống quy mô lớn (Production) phải đối mặt với hai bức tường: Bảo mật dữ liệu và Chi phí vận hành khổng lồ. ...

Data Engineering SFT: NEFTune & SemDeDup | SLM Playbook

Trong kỷ nguyên của LLMs/SLMs, câu slogan kinh điển của ngành dữ liệu: “Garbage In, Garbage Out” chưa bao giờ đúng hơn thế. Khi thực hiện huấn luyện tinh chỉnh có giám sát (Supervised Fine-Tuning - SFT) cho các mô hình ngôn ngữ nhỏ (SLMs), chất lượng và cấu trúc dữ liệu đóng vai trò quyết định 90% hiệu năng thực chiến của mô hình sau khi train. Việc nhồi nhét hàng triệu dòng dữ liệu hội thoại thu thập thô (raw web scrape hoặc synthetic data cấp thấp) chỉ khiến mô hình bị ngộ độc, quá khớp (overfitting) với các câu trả lời rập khuôn và tiêu tốn hàng nghìn giờ GPU vô ích. ...

Thực Chiến QLoRA Fine-tuning: Axolotl & Unsloth

Huấn luyện tinh chỉnh toàn phần (Full Parameter Fine-Tuning) một mô hình ngôn ngữ lớn là một đặc quyền xa xỉ. Đối với một mô hình nhỏ như Llama 3 8B, việc cập nhật toàn bộ tham số ở định dạng 16-bit vẫn đòi hỏi cụm phần cứng khổng lồ vượt xa khả năng của các nhà phát triển hoặc startup vừa và nhỏ. Để giải quyết bài toán tài nguyên, các kỹ thuật PEFT (Parameter-Efficient Fine-Tuning) ra đời, nổi bật nhất là LoRA và QLoRA. Chúng cho phép huấn luyện các mô hình hàng tỷ tham số trên duy nhất một chiếc GPU phổ thông (như RTX 3090, 4090 hoặc A10G) mà không làm suy giảm chất lượng đầu ra. ...

Knowledge Distillation: Chắt Lọc Tri Thức DeepSeek-R1

Sự xuất hiện của DeepSeek-R1 vào đầu năm 2025 đã làm đảo lộn nhiều quan điểm cũ về phát triển trí tuệ nhân tạo. Thay vì chạy đua nâng cấp số lượng tham số phần cứng thô, DeepSeek đã chứng minh một bước đi mang tính đột phá: Chắt lọc tri thức (Knowledge Distillation) từ các mô hình suy luận siêu lớn (Reasoning Models) có thể truyền lại khả năng lập luận đa bước (Chain of Thought - CoT) cho các mô hình nhỏ (SLMs) như Qwen hoặc Llama. ...

Preference Alignment: Thuật Toán DPO, KTO và GRPO

Huấn luyện tinh chỉnh có giám sát (SFT) là bước đệm đưa tri thức vào mô hình, nhưng nó không dạy mô hình cách xử lý các tình huống phức tạp: Khi nào câu trả lời là an toàn hay độc hại, hoặc làm thế nào để tự nhận lỗi sai và sửa lại trong quá trình suy luận. Để mô hình ngôn ngữ thực sự tương tác thông minh và hữu ích theo ý muốn của con người, chúng ta phải tiến hành bước Căn chỉnh hành vi (Preference Alignment). ...

Tối Ưu vLLM Serving: So Sánh AWQ, GPTQ và GGUF

Huấn luyện và căn chỉnh hành vi thành công một mô hình ngôn ngữ nhỏ (SLM) mới chỉ giải quyết được một nửa chặng đường. Trong môi trường doanh nghiệp thực tế, đưa mô hình lên hệ thống phục vụ (Production Serving) đòi hỏi bạn phải giải quyết ba thách thức cực kỳ khắc nghiệt: Lượng truy cập đồng thời lớn (Concurrency), Độ trễ phản hồi thấp (Low Latency) và Chi phí máy chủ tối giản (Compute Cost). ...

Cấu Trúc Sổ Tay SLM Playbook#

Cấu Trúc Sổ Tay SLM Playbook