Phần 10: Production Evals & CI/CD Cho AI
1. Hồi Kết Của Kỷ Nguyên “Vibe Check” Cách đây vài năm, quy trình test một hệ thống AI diễn ra như sau: Lập trình viên sửa lại file Prompt, gõ vài câu hỏi vào khung chat, đọc lướt qua thấy AI trả lời có vẻ xuôi tai (vibe check), hô to “Looks Good To Me” (LGTM) và bấm Deploy lên Production. Vào năm 2026, cách làm này bị coi là thảm họa. AI là một hệ thống phi tuyến tính (Non-deterministic). Hôm nay nó trả lời đúng, nhưng ngày mai bạn chỉ cần đổi 1 từ trong Prompt hoặc thay phiên bản LLM mới, nó có thể sinh ra “ảo giác” (Hallucination) ở một ngóc ngách mà bạn không hề test tới. Để đưa AI vào phục vụ doanh nghiệp, bạn phải chuyển từ kiểm thử cảm tính sang kiểm thử theo xác suất thống kê. ...