VERL: Volcano Engine Reinforcement Learning for LLMs

为什么我现在才入坑 RL?

高策这篇文章启发,最近我也想深入玩玩 Agent RL 这个方向,了解一下目前 Agent RL Infra 的进展,亲手从零开始做一遍炼丹实验。

前一段时间 DeepSeek R1 出来之后,大家都发现"哦原来强化学习能把推理能力练出来”。作为一个天天和 AI Infrastructure 打交道的人,我当然也忍不住想自己动手试试。


一分钟 RL 入门:概念 & 框架扫盲

先快速过一遍基础,帮你快速理清现在 RL 训练的主流概念和框架:

几个基本概念

概念 一句话说明
RLHF Reinforcement Learning from Human Feedback,用人类反馈强化学习对齐大模型
PPO Proximal Policy Optimization,经典的 RL 算法,需要单独训练一个 Critic 价值网络,显存占得多但稳定
GRPO Group Relative Policy Optimization,去掉了 Critic,通过同一个 prompt 多个采样组内归一化计算优势,省显存,现在推理模型训练常用
DAPO Decoupled Actor Policy Optimization,在 GRPO 基础上进一步优化,搜索结果说比 GRPO 效果更好
GDPO Group Divergence PO,另一组改进,更好地控制 KL 散度
FSDP Fully Sharded Data Parallel,分布式训练显存分片技术,现在大模型训练标配
vLLM/SGLang 高性能推理引擎,RL 训练中用来 rollout 生成样本,比原生 Hugging Face 快很多

主流开源框架

框架 特点 适合谁
VERL 字节 Seed 团队开源,算法全(PPO/GRPO/DAPO/GDPO 都有),工程做得好,支持 FSDP2/vLLM/SGLang,现在社区最火 想要完整功能,冲着 DAPO/GRPO 来,能接受自己搭环境
OpenRLHF 更早开源,社区成熟,支持 PPO/GRPO,文档比较全 喜欢稳定,需要更多文档案例
TinyZero 精简版 GRPO 复现,代码少,适合学习原理 新手学习,想要最小可运行例子
EasyR1 一键启动,提供现成数据集和配置,开箱即用 想要快速跑通,不想折腾环境

看完这张表,应该能快速选到适合自己的框架了。