Hexo
Home
Archives
0%
RLHF
Category
2026
01-26
从 PPO 到 DPO、GRPO:LLM 对齐训练的两种常用变体