DevOps

Phần 8: Giai đoạn 3 — Chuyển Đổi Hoàn Toàn (Full Cutover): Zero Downtime + ArgoCD GitOps

Giai đoạn 3 (Phase 3) là hồi kết: 100% traffic chuyển hẳn sang hệ thống microservice, Magento chính thức lùi về làm một kho lưu trữ thụ động (passive archive), và toàn bộ nền tảng vận hành hoàn toàn trên các microservice Go thông qua quy trình GitOps. Sẽ không còn bóng dáng của PHP trong những luồng request quan trọng nữa. Và cũng chấm dứt luôn chuỗi ngày phải è cổ ra đóng tiền gia hạn giấy phép (license) cho Magento. ...

Tối Ưu Hóa Inference & Triển Khai vLLM Trên Production

1. Nút Cổ Chai Của LLM: Tại Sao GPU Vẫn Thất Nghiệp? Sau khi thiết kế xong toàn bộ kiến trúc Agent ở 7 phần trước, đến lúc bạn đưa hệ thống lên Production (chạy thực tế). Mọi start-up đều sớm nhận ra một sự thật cay đắng: Kẻ thù của LLM không phải là Sức mạnh tính toán (Compute), mà là Băng thông bộ nhớ (Memory Bandwidth). Để chạy mô hình Llama-3 70B (chuẩn FP16), bạn cần khoảng 140GB VRAM chỉ để chứa mô hình. Nhưng khi có 100 User cùng gửi prompt, hệ thống phải sinh ra một vùng nhớ tạm gọi là KV Cache để giữ lại bối cảnh của 100 cuộc hội thoại đó. Ngay lập tức, KV Cache phình to ra và ăn cạn bộ nhớ VRAM còn lại. Hệ thống báo lỗi Out-Of-Memory (OOM) và sụp đổ, mặc dù sức mạnh xử lý của GPU lúc đó chỉ mới xài hết 30%. Làm sao để “nhồi” nhiều User hơn vào GPU mà không bị tràn RAM? ...

Giám Sát & Gỡ Lỗi Luồng Suy Nghĩ Của AI

1. Vấn Đề “Hộp Đen” & Sự Bất Lực Của APM Truyền Thống Trong hệ thống phần mềm truyền thống (Web/App), bạn có thể dùng các công cụ APM (Application Performance Monitoring) như Datadog hay New Relic để theo dõi. Nếu hệ thống trả về mã HTTP 200 OK, bạn biết mọi thứ đang hoạt động tốt. Nếu trả về HTTP 500, bạn mở Log ra xem dòng code nào bị lỗi. ...

Phần 10: Production Evals & CI/CD Cho AI

1. Hồi Kết Của Kỷ Nguyên “Vibe Check” Cách đây vài năm, quy trình test một hệ thống AI diễn ra như sau: Lập trình viên sửa lại file Prompt, gõ vài câu hỏi vào khung chat, đọc lướt qua thấy AI trả lời có vẻ xuôi tai (vibe check), hô to “Looks Good To Me” (LGTM) và bấm Deploy lên Production. Vào năm 2026, cách làm này bị coi là thảm họa. AI là một hệ thống phi tuyến tính (Non-deterministic). Hôm nay nó trả lời đúng, nhưng ngày mai bạn chỉ cần đổi 1 từ trong Prompt hoặc thay phiên bản LLM mới, nó có thể sinh ra “ảo giác” (Hallucination) ở một ngóc ngách mà bạn không hề test tới. Để đưa AI vào phục vụ doanh nghiệp, bạn phải chuyển từ kiểm thử cảm tính sang kiểm thử theo xác suất thống kê. ...

So sánh kiến trúc AWS EKS vs ECS — tanhdev.com

AWS EKS vs ECS: Kiến trúc, Chi phí & Thực tế Sử dụng (2026)

🇬🇧 Read the English version of this article on tanhdev.com TL;DR: EKS cung cấp cho bạn toàn bộ sức mạnh của Kubernetes, khả năng di động và hệ sinh thái CNCF. ECS mang lại sự đơn giản thuần túy của AWS với chi phí control plane bằng $0. Hãy chọn EKS nếu bạn cần GitOps, ArgoCD, Dapr, hoặc muốn không bị khóa chặt vào một cloud (multi-cloud). Chọn ECS nếu bạn muốn đưa sản phẩm ra thị trường nhanh nhất trên AWS với gánh nặng vận hành tối thiểu. ...

Kubernetes In-Place Pod Resizing: Nâng hạ CPU & Memory Mà Không Cần Restart

🇬🇧 Read the English version of this article on tanhdev.com Answer-first: Tính năng In-Place Pod Resizing (Nâng hạ Pod Tại Chỗ - đã đạt mốc GA ổn định ở Kubernetes v1.35) trao quyền cho bạn thay đổi cấu hình requests/limits của cả CPU và memory (bộ nhớ) trên các containers đang trong quá trình chạy mà chẳng thèm phải restart (khởi động lại) cái pod đó — triệt tiêu hoàn toàn sự gián đoạn của các đợt khởi động lạnh (cold-start disruptions) dành riêng cho nhóm tải việc AI inference (suy luận AI), hệ thống cơ sở dữ liệu (databases), và cả mấy cái khối xử lý mang thuộc tính stateful (cần lưu trạng thái) cứng đầu. Cuốn cẩm nang này sẽ moi móc hết rạch ròi về yêu cầu mấu chốt, hàng mẫu YAML dùng cho production, kiểu tích hợp chung bộ VPA, các nước cờ tối ưu hóa tiền bạc, cùng mấy cái bẫy chết người (gotchas). ...

Argo CD 3.4 & 3.3 Có Gì Mới: Tạm Dừng Cụm (Cluster Pause) & Cập Nhật

🇬🇧 Read the English version of this article on tanhdev.com GitOps đang dần trở thành tiêu chuẩn vàng cho quản lý cấu hình và triển khai ứng dụng trên Kubernetes. Trong số các công cụ hiện có, Argo CD tiếp tục duy trì vị trí dẫn đầu. Trong nửa đầu năm 2026, dự án Argo đã phát hành hai phiên bản mang tính bước ngoặt: Argo CD 3.3 và Argo CD 3.4. Các bản phát hành này giải quyết nhiều vấn đề đau đầu liên quan đến quản lý vòng đời ứng dụng, hiệu suất đồng bộ hóa và khả năng phản ứng sự cố. ...

Điều phối 21 Microservices với Kubernetes & ArgoCD

🇬🇧 Read the English version of this article on tanhdev.com Viết ra được 21 microservices bằng Go với kiến trúc chuẩn mực mới chỉ là một nửa cuộc chiến. Nếu quy trình deploy (triển khai) của bạn vẫn phụ thuộc vào một kỹ sư gõ lệnh kubectl apply từ laptop cá nhân của anh ta vào một chiều thứ Sáu, bạn chưa hề xây dựng một nền tảng enterprise — bạn vừa chế tạo ra một quả bom nổ chậm. ...