Tối Ưu Hóa Inference & Triển Khai vLLM Trên Production

1. Nút Cổ Chai Của LLM: Tại Sao GPU Vẫn Thất Nghiệp? Sau khi thiết kế xong toàn bộ kiến trúc Agent ở 7 phần trước, đến lúc bạn đưa hệ thống lên Production (chạy thực tế). Mọi start-up đều sớm nhận ra một sự thật cay đắng: Kẻ thù của LLM không phải là Sức mạnh tính toán (Compute), mà là Băng thông bộ nhớ (Memory Bandwidth). Để chạy mô hình Llama-3 70B (chuẩn FP16), bạn cần khoảng 140GB VRAM chỉ để chứa mô hình. Nhưng khi có 100 User cùng gửi prompt, hệ thống phải sinh ra một vùng nhớ tạm gọi là KV Cache để giữ lại bối cảnh của 100 cuộc hội thoại đó. Ngay lập tức, KV Cache phình to ra và ăn cạn bộ nhớ VRAM còn lại. Hệ thống báo lỗi Out-Of-Memory (OOM) và sụp đổ, mặc dù sức mạnh xử lý của GPU lúc đó chỉ mới xài hết 30%. Làm sao để “nhồi” nhiều User hơn vào GPU mà không bị tràn RAM? ...

May 17, 2026 · 5 min · Tuan Anh