Tối Ưu vLLM Serving: So Sánh AWQ, GPTQ và GGUF

Huấn luyện và căn chỉnh hành vi thành công một mô hình ngôn ngữ nhỏ (SLM) mới chỉ giải quyết được một nửa chặng đường. Trong môi trường doanh nghiệp thực tế, đưa mô hình lên hệ thống phục vụ (Production Serving) đòi hỏi bạn phải giải quyết ba thách thức cực kỳ khắc nghiệt: Lượng truy cập đồng thời lớn (Concurrency), Độ trễ phản hồi thấp (Low Latency) và Chi phí máy chủ tối giản (Compute Cost). ...

May 26, 2026 · 7 min · Tuan Anh

Tối Ưu Hóa Inference & Triển Khai vLLM Trên Production

1. Nút Cổ Chai Của LLM: Tại Sao GPU Vẫn Thất Nghiệp? Sau khi thiết kế xong toàn bộ kiến trúc Agent ở 7 phần trước, đến lúc bạn đưa hệ thống lên Production (chạy thực tế). Mọi start-up đều sớm nhận ra một sự thật cay đắng: Kẻ thù của LLM không phải là Sức mạnh tính toán (Compute), mà là Băng thông bộ nhớ (Memory Bandwidth). Để chạy mô hình Llama-3 70B (chuẩn FP16), bạn cần khoảng 140GB VRAM chỉ để chứa mô hình. Nhưng khi có 100 User cùng gửi prompt, hệ thống phải sinh ra một vùng nhớ tạm gọi là KV Cache để giữ lại bối cảnh của 100 cuộc hội thoại đó. Ngay lập tức, KV Cache phình to ra và ăn cạn bộ nhớ VRAM còn lại. Hệ thống báo lỗi Out-Of-Memory (OOM) và sụp đổ, mặc dù sức mạnh xử lý của GPU lúc đó chỉ mới xài hết 30%. Làm sao để “nhồi” nhiều User hơn vào GPU mà không bị tràn RAM? ...

May 17, 2026 · 5 min · Tuan Anh