Reinforcement Learning on Learn by Tanhdev

Reinforcement Learning on Learn by Tanhdevhttps://learn.tanhdev.com/tags/reinforcement-learning/Recent content in Reinforcement Learning on Learn by TanhdevHugoen-usMon, 25 May 2026 08:00:00 +0700Preference Alignment: Thuật Toán DPO, KTO và GRPOhttps://learn.tanhdev.com/series/slm-playbook/part-5-preference-alignment/Mon, 25 May 2026 08:00:00 +0700https://learn.tanhdev.com/series/slm-playbook/part-5-preference-alignment/Tìm hiểu học tăng cường căn chỉnh LLMs. So sánh DPO, KTO và giải mã thuật toán GRPO của DeepSeek giúp tiết kiệm 50% GPU VRAM do không cần Critic Model.