Executive Summary — Sổ Tay Tối Ưu Hóa SLM

← Series hub Next → Trong hai năm qua, làn sóng áp dụng AI trong doanh nghiệp gần như bị chi phối bởi một kiến trúc duy nhất: Tích hợp API với các mô hình đóng khổng lồ (Frontier LLMs). Mặc dù mô hình API-Centric này giúp việc thử nghiệm ý tưởng (PoC) diễn ra nhanh chóng, nó lại nhanh chóng trở thành một gánh nặng khi mở rộng hệ thống ở quy mô Production và phải xử lý dữ liệu nhạy cảm. ...

May 20, 2026 · 4 min · Tuan Anh

Kiến Trúc Hybrid AI & Tự Host vLLM | SLM Playbook

Trong giai đoạn đầu của làn sóng AI (2023-2024), kiến trúc mặc định của hầu hết các startup và doanh nghiệp là API-Centric: Gửi mọi request đến OpenAI GPT-4 hoặc Anthropic Claude. Mô hình này rất tiện lợi cho giai đoạn thử nghiệm (PoC) nhưng lại nhanh chóng đổ vỡ khi hệ thống quy mô lớn (Production) phải đối mặt với hai bức tường: Bảo mật dữ liệu và Chi phí vận hành khổng lồ. ...

May 21, 2026 · 13 min · Tuan Anh

Tối Ưu vLLM Serving: So Sánh AWQ, GPTQ và GGUF

Huấn luyện và căn chỉnh hành vi thành công một mô hình ngôn ngữ nhỏ (SLM) mới chỉ giải quyết được một nửa chặng đường. Trong môi trường doanh nghiệp thực tế, đưa mô hình lên hệ thống phục vụ (Production Serving) đòi hỏi bạn phải giải quyết ba thách thức cực kỳ khắc nghiệt: Lượng truy cập đồng thời lớn (Concurrency), Độ trễ phản hồi thấp (Low Latency) và Chi phí máy chủ tối giản (Compute Cost). ...

May 26, 2026 · 7 min · Tuan Anh

Tối Ưu Hóa Inference & Triển Khai vLLM Trên Production

1. Nút Cổ Chai Của LLM: Tại Sao GPU Vẫn Thất Nghiệp? Sau khi thiết kế xong toàn bộ kiến trúc Agent ở 7 phần trước, đến lúc bạn đưa hệ thống lên Production (chạy thực tế). Mọi start-up đều sớm nhận ra một sự thật cay đắng: Kẻ thù của LLM không phải là Sức mạnh tính toán (Compute), mà là Băng thông bộ nhớ (Memory Bandwidth). Để chạy mô hình Llama-3 70B (chuẩn FP16), bạn cần khoảng 140GB VRAM chỉ để chứa mô hình. Nhưng khi có 100 User cùng gửi prompt, hệ thống phải sinh ra một vùng nhớ tạm gọi là KV Cache để giữ lại bối cảnh của 100 cuộc hội thoại đó. Ngay lập tức, KV Cache phình to ra và ăn cạn bộ nhớ VRAM còn lại. Hệ thống báo lỗi Out-Of-Memory (OOM) và sụp đổ, mặc dù sức mạnh xử lý của GPU lúc đó chỉ mới xài hết 30%. Làm sao để “nhồi” nhiều User hơn vào GPU mà không bị tràn RAM? ...

May 17, 2026 · 5 min · Tuan Anh

Fine-Tune vs Prompt-Engineer Với Một LLM: Cẩm Nang Chốt Hạ

Ba khứa kỹ sư lọt chung 1 team đang hục hặc đập chung 1 món: 1 con bot (customer support assistant) trả lời khách hàng theo cái giọng điệu nịnh nọt riêng của công ty, nhai lại ba cái thuật ngữ lấy từ cuốn bí kíp tài liệu (product documentation). Một ông gào lên “viết cụ nó 1 cái prompt xịn là xong”. Ông khác thì cự “phải mang ra mài dũa (fine-tune) lại cái mô hình”. Ông cuối phán “mù à, bài này rặt mùi RAG rồi”. ...

June 1, 2026 · 19 min · Tuan Anh