Hexo
Home
Archives
0%
DPO
Tag
2026
01-26
从 PPO 到 DPO、GRPO:LLM 对齐训练的两种常用变体