Hexo
Home
Archives
0%
Reinforcement Learning
Tag
2026
01-26
从 PPO 到 DPO、GRPO:LLM 对齐训练的两种常用变体
2025
05-20
【RL硬核笔记】从 Policy Gradient 到 PPO 的完整推导(修订版)