Preference Alignment: Thuật Toán DPO, KTO và GRPO
Huấn luyện tinh chỉnh có giám sát (SFT) là bước đệm đưa tri thức vào mô hình, nhưng nó không dạy mô hình cách xử lý các tình huống phức tạp: Khi nào câu trả lời là an toàn hay độc hại, hoặc làm thế nào để tự nhận lỗi sai và sửa lại trong quá trình suy luận. Để mô hình ngôn ngữ thực sự tương tác thông minh và hữu ích theo ý muốn của con người, chúng ta phải tiến hành bước Căn chỉnh hành vi (Preference Alignment). ...