Tối Ưu Hóa Inference & Triển Khai vLLM Trên Production

1. Nút Cổ Chai Của LLM: Tại Sao GPU Vẫn Thất Nghiệp? Sau khi thiết kế xong toàn bộ kiến trúc Agent ở 7 phần trước, đến lúc bạn đưa hệ thống lên Production (chạy thực tế). Mọi start-up đều sớm nhận ra một sự thật cay đắng: Kẻ thù của LLM không phải là Sức mạnh tính toán (Compute), mà là Băng thông bộ nhớ (Memory Bandwidth). Để chạy mô hình Llama-3 70B (chuẩn FP16), bạn cần khoảng 140GB VRAM chỉ để chứa mô hình. Nhưng khi có 100 User cùng gửi prompt, hệ thống phải sinh ra một vùng nhớ tạm gọi là KV Cache để giữ lại bối cảnh của 100 cuộc hội thoại đó. Ngay lập tức, KV Cache phình to ra và ăn cạn bộ nhớ VRAM còn lại. Hệ thống báo lỗi Out-Of-Memory (OOM) và sụp đổ, mặc dù sức mạnh xử lý của GPU lúc đó chỉ mới xài hết 30%. Làm sao để “nhồi” nhiều User hơn vào GPU mà không bị tràn RAM? ...

May 17, 2026 · 5 min · Tuan Anh

Giám Sát & Gỡ Lỗi Luồng Suy Nghĩ Của AI

1. Vấn Đề “Hộp Đen” & Sự Bất Lực Của APM Truyền Thống Trong hệ thống phần mềm truyền thống (Web/App), bạn có thể dùng các công cụ APM (Application Performance Monitoring) như Datadog hay New Relic để theo dõi. Nếu hệ thống trả về mã HTTP 200 OK, bạn biết mọi thứ đang hoạt động tốt. Nếu trả về HTTP 500, bạn mở Log ra xem dòng code nào bị lỗi. ...

May 17, 2026 · 5 min · Tuan Anh

Phần 10: Production Evals & CI/CD Cho AI

1. Hồi Kết Của Kỷ Nguyên “Vibe Check” Cách đây vài năm, quy trình test một hệ thống AI diễn ra như sau: Lập trình viên sửa lại file Prompt, gõ vài câu hỏi vào khung chat, đọc lướt qua thấy AI trả lời có vẻ xuôi tai (vibe check), hô to “Looks Good To Me” (LGTM) và bấm Deploy lên Production. Vào năm 2026, cách làm này bị coi là thảm họa. AI là một hệ thống phi tuyến tính (Non-deterministic). Hôm nay nó trả lời đúng, nhưng ngày mai bạn chỉ cần đổi 1 từ trong Prompt hoặc thay phiên bản LLM mới, nó có thể sinh ra “ảo giác” (Hallucination) ở một ngóc ngách mà bạn không hề test tới. Để đưa AI vào phục vụ doanh nghiệp, bạn phải chuyển từ kiểm thử cảm tính sang kiểm thử theo xác suất thống kê. ...

May 17, 2026 · 5 min · Tuan Anh

Argo CD 3.4 & 3.3 Có Gì Mới: Tạm Dừng Cụm (Cluster Pause) & Cập Nhật

GitOps đang dần trở thành tiêu chuẩn vàng cho quản lý cấu hình và triển khai ứng dụng trên Kubernetes. Trong số các công cụ hiện có, Argo CD tiếp tục duy trì vị trí dẫn đầu. Trong nửa đầu năm 2026, dự án Argo đã phát hành hai phiên bản mang tính bước ngoặt: Argo CD 3.3 và Argo CD 3.4. Các bản phát hành này giải quyết nhiều vấn đề đau đầu liên quan đến quản lý vòng đời ứng dụng, hiệu suất đồng bộ hóa và khả năng phản ứng sự cố. ...

June 1, 2026 · 7 min · Tuan Anh

Điều phối 21 Microservices với Kubernetes & ArgoCD

Viết ra được 21 microservices bằng Go với kiến trúc chuẩn mực mới chỉ là một nửa cuộc chiến. Nếu quy trình deploy (triển khai) của bạn vẫn phụ thuộc vào một kỹ sư gõ lệnh kubectl apply từ laptop cá nhân của anh ta vào một chiều thứ Sáu, bạn chưa hề xây dựng một nền tảng enterprise — bạn vừa chế tạo ra một quả bom nổ chậm. ...

April 12, 2026 · 9 min · Tuan Anh