Knowledge Distillation

Sự xuất hiện của DeepSeek-R1 vào đầu năm 2025 đã làm đảo lộn nhiều quan điểm cũ về phát triển trí tuệ nhân tạo. Thay vì chạy đua nâng cấp số lượng tham số phần cứng thô, DeepSeek đã chứng minh một bước đi mang tính đột phá: Chắt lọc tri thức (Knowledge Distillation) từ các mô hình suy luận siêu lớn (Reasoning Models) có thể truyền lại khả năng lập luận đa bước (Chain of Thought - CoT) cho các mô hình nhỏ (SLMs) như Qwen hoặc Llama. ...