Phần 10: Production Evals & CI/CD Cho AI

1. Hồi Kết Của Kỷ Nguyên “Vibe Check”

Cách đây vài năm, quy trình test một hệ thống AI diễn ra như sau: Lập trình viên sửa lại file Prompt, gõ vài câu hỏi vào khung chat, đọc lướt qua thấy AI trả lời có vẻ xuôi tai (vibe check), hô to “Looks Good To Me” (LGTM) và bấm Deploy lên Production.

Vào năm 2026, cách làm này bị coi là thảm họa. AI là một hệ thống phi tuyến tính (Non-deterministic). Hôm nay nó trả lời đúng, nhưng ngày mai bạn chỉ cần đổi 1 từ trong Prompt hoặc thay phiên bản LLM mới, nó có thể sinh ra “ảo giác” (Hallucination) ở một ngóc ngách mà bạn không hề test tới. Để đưa AI vào phục vụ doanh nghiệp, bạn phải chuyển từ kiểm thử cảm tính sang kiểm thử theo xác suất thống kê.

2. Tài Sản Vô Giá: Golden Dataset

Bạn không thể dùng các bộ Benchmark chung chung trên mạng (như MMLU hay HumanEval) để test Chatbot nội bộ của công ty. Bạn phải tự xây dựng Golden Dataset (Tập Dữ Liệu Vàng).

Golden Dataset là một file cấu trúc (JSON/CSV) chứa từ 200 - 500 cặp [Câu hỏi User] -> [Ngữ cảnh cần có] -> [Câu trả lời tiêu chuẩn].

Nguồn gốc: Đừng tự bịa ra câu hỏi. Hãy lấy 90% dữ liệu từ chính lỗi thực tế trên Production (nhờ hệ thống Observability ở Phần 9) và 10% là các ca “Adversarial” (User cố tình phá hoại).
Bảo chứng: Tập dữ liệu này chính là “Bản Hợp Đồng” chất lượng. Mọi dòng code hay Prompt mới đều phải thi đậu bài test này mới được phép sáp nhập (Merge).

3. “Tam Giác Thánh” Của Hệ Thống RAG

Để chấm điểm AI tự động, ngành công nghiệp đã chuẩn hóa thành 3 chỉ số cốt lõi (được định nghĩa rõ nhất bởi các framework như Ragas và TruLens):

Context Relevance (Độ chuẩn xác ngữ cảnh): Đo lường xem Vector DB có tìm đúng tài liệu mà User cần không. Nếu điểm này thấp, lỗi thuộc về Data Engineer (chunking, embedding kém).
Faithfulness / Groundedness (Tính trung thực): Đo lường xem câu trả lời của AI có hoàn toàn bám sát vào tài liệu không, hay nó tự “chế” thêm thông tin bên ngoài. Đây là chỉ số tử huyệt để diệt Hallucination.
Answer Relevance (Độ bám sát câu hỏi): Đôi khi AI trả lời rất trung thực theo tài liệu, nhưng lại… lạc đề so với câu hỏi của User. Chỉ số này đánh giá độ hữu ích cuối cùng.

4. LLM-as-a-Judge: Dùng AI Chấm Điểm AI

Sức người không thể tự đọc và chấm điểm 500 câu trả lời mỗi khi Dev sửa code. Giải pháp của năm 2026 là LLM-as-a-judge. Chúng ta thuê một mô hình “Đại ca” (ví dụ: GPT-4o hoặc Claude 3.5 Sonnet) đóng vai trò Giám khảo, để chấm điểm mô hình “Đàn em” (Llama-3 8B) theo Thang điểm từ 1-5 dựa trên 3 tiêu chí của RAG Triad.

⚠️ Cảnh báo Bias (Thiên lệch): Giám khảo AI rất hay bị dính Verbosity Bias (chấm điểm cao cho câu trả lời dài dòng dù nội dung sáo rỗng) hoặc Self-Preference Bias (thiên vị mô hình “gà nhà”). Để khắc phục, bạn phải yêu cầu Giám khảo in ra Chain-of-Thought (Lý do chấm điểm) trước khi đưa ra con số cuối cùng, và định kỳ lấy con người (Human-in-the-loop) chấm lại 10% dữ liệu để “nắn gân” Giám khảo.

5. Cổng Chặn CI/CD & Online Evals

Quy trình phát triển AI (LLMOps) hiện đại được chia làm 2 chốt chặn:

Chốt chặn 1: Offline Evals (CI/CD Gates)

Tích hợp các công cụ như Promptfoo, DeepEval hoặc Braintrust vào GitHub Actions. Bạn có thể sử dụng đoạn mã (Snippet) YAML sau cho file .github/workflows/ai-evals.yml:

name: 'AI Agent Evaluation'
on:
  pull_request:
    paths:
      - 'prompts/**'
      - 'agents/**'
jobs:
  evaluate:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - name: Run promptfoo evaluation (LLM-as-a-judge)
        uses: promptfoo/promptfoo-action@v1
        with:
          openai-api-key: ${{ secrets.OPENAI_API_KEY }}
          config: 'prompts/promptfooconfig.yaml'
          fail-on-error: true # Chặn luồng Merge nếu rớt điểm

Kịch bản: Developer A vừa sửa lại system_prompt.txt và tạo Pull Request.
Hành động: GitHub Action tự động lấy Prompt mới, chạy qua 500 câu hỏi trong Golden Dataset. Giám khảo LLM chấm điểm.
Kết quả: Điểm Faithfulness rớt từ 92% xuống 81% (dưới ngưỡng an toàn 85%). GitHub Action đánh dấu ❌ FAILED và khóa nút Merge. Lỗi được chặn đứng trước khi đến tay User.

Chốt chặn 2: Online Evals (Canh gác Production)

Qua được CI/CD không có nghĩa là an toàn mãi mãi, vì dữ liệu công ty (trong Vector DB) thay đổi mỗi ngày. Hệ thống Online Evals sẽ chạy ngầm (Asynchronous). Nó bốc ngẫu nhiên 10% log chat của User trên Production, gửi cho Giám khảo chấm điểm. Nếu phát hiện điểm số trung bình (Drift) tuột dốc trong 3 ngày liên tiếp, nó sẽ gửi cảnh báo khẩn cấp (Alert) vào kênh Slack của team Data.

Lời Kết Series

Chúc mừng bạn! Qua 10 bài viết, chúng ta đã đi từ những khái niệm ngây ngô của Naive RAG, vượt qua vũng lầy của xử lý dữ liệu phi cấu trúc, xây dựng GraphRAG, trang bị Tool cho AI Agents, thiết lập bảo mật tường lửa, tối ưu hóa vLLM, và cuối cùng là khóa chặt chất lượng bằng CI/CD Evals.

Bạn đã chính thức làm chủ Kiến trúc Data Pipeline & Agentic AI chuẩn Enterprise SOTA 2026. Thay vì chỉ là người đi “gọi API LLM”, bạn giờ đây là một Kiến trúc sư Hệ thống AI (AI Systems Architect) thực thụ.

Cảm ơn bạn đã đồng hành cùng series này!

1. Hồi Kết Của Kỷ Nguyên “Vibe Check”#

2. Tài Sản Vô Giá: Golden Dataset#

3. “Tam Giác Thánh” Của Hệ Thống RAG#

4. LLM-as-a-Judge: Dùng AI Chấm Điểm AI#

5. Cổng Chặn CI/CD & Online Evals#

Chốt chặn 1: Offline Evals (CI/CD Gates)#

Chốt chặn 2: Online Evals (Canh gác Production)#

Lời Kết Series#