Tag: Reinforcement Learning | Hexo

0%

Reinforcement Learning Tag

2026

01-26

从 PPO 到 DPO、GRPO：LLM 对齐训练的两种常用变体

2025

05-20

【RL硬核笔记】从 Policy Gradient 到 PPO 的完整推导（修订版）