一分钟 RL 入门:Agent RL 概念与框架扫盲

为什么我现在才入坑 RL?
受高策这篇文章启发,最近我也想深入玩玩 Agent RL 这个方向,了解一下目前 Agent RL Infra 的进展,亲手从零开始做一遍炼丹实验。
前一段时间 DeepSeek R1 出来之后,大家都发现"哦原来强化学习能把推理能力练出来”。作为一个天天和 AI Infrastructure 打交道的人,我当然也忍不住想自己动手试试。
一分钟 RL 入门:概念 & 框架扫盲
先快速过一遍基础,帮你快速理清现在 RL 训练的主流概念和框架:
几个基本概念
| 概念 | 一句话说明 |
|---|---|
| RLHF | Reinforcement Learning from Human Feedback,用人类反馈强化学习对齐大模型 |
| PPO | Proximal Policy Optimization,经典的 RL 算法,需要单独训练一个 Critic 价值网络,显存占得多但稳定 |
| GRPO | Group Relative Policy Optimization,去掉了 Critic,通过同一个 prompt 多个采样组内归一化计算优势,省显存,现在推理模型训练常用 |
| DAPO | Decoupled Actor Policy Optimization,在 GRPO 基础上进一步优化,搜索结果说比 GRPO 效果更好 |
| GDPO | Group Divergence PO,另一组改进,更好地控制 KL 散度 |
| FSDP | Fully Sharded Data Parallel,分布式训练显存分片技术,现在大模型训练标配 |
| vLLM/SGLang | 高性能推理引擎,RL 训练中用来 rollout 生成样本,比原生 Hugging Face 快很多 |
主流开源框架
| 框架 | 特点 | 适合谁 |
|---|---|---|
| VERL | 字节 Seed 团队开源,算法全(PPO/GRPO/DAPO/GDPO 都有),工程做得好,支持 FSDP2/vLLM/SGLang,现在社区最火 | 想要完整功能,冲着 DAPO/GRPO 来,能接受自己搭环境 |
| OpenRLHF | 更早开源,社区成熟,支持 PPO/GRPO,文档比较全 | 喜欢稳定,需要更多文档案例 |
| TinyZero | 精简版 GRPO 复现,代码少,适合学习原理 | 新手学习,想要最小可运行例子 |
| EasyR1 | 一键启动,提供现成数据集和配置,开箱即用 | 想要快速跑通,不想折腾环境 |
看完这张表,应该能快速选到适合自己的框架了。