X-R1是什么
X-R1是基于强化学习的低成本训练框架,能加速大规模语言模型的后训练(Scaling Post-Training)开发。X-R1用极低的成本训练0.5B(5亿参数)规模的R1-Zero模型,仅需4块3090或4090 GPU,训练时间约1小时,成本低于10美元。X-R1支持更大规模的模型(如1.5B、7B、32B等),提供不同大小的数据集实现快速训练循环。

X-R1的主要功能
- 低成本训练:用4块3090/4090 GPU进行训练,1小时内完成训练,成本低于10美元。
- 模型规模支持:支持0.5B、1.5B、7B、32B等不同规模的模型。
- 数据集:提供0.75k、1.5k、7.5k等不同规模的数据集,用于快速训练循环。
- 日志记录:记录GRPO在线采样数据到日志文件。
- 扩展性与灵活性: 提供详细的配置文件和训练脚本,方便用户根据需求进行定制。
X-R1的技术原理
- 强化学习(Reinforcement Learning, RL): X-R1用强化学习优化模型的训练过程。基于定义奖励函数,模型在训练过程中根据奖励信号调整参数,最大化累积奖励。 GRPO(Gradient-based Reinforcement Policy Optimization)技术被用于在线采样,基于梯度更新策略,提升训练效率和模型性能。
- 分布式训练: X-R1支持分布式训练,用多GPU并行计算加速训练过程。基于配置文件(如Zero3.yaml),用户灵活设置训练环境,实现高效的并行训练。 采用DeepSpeed等分布式训练框架,优化内存使用和计算效率。
- 低成本硬件配置: X-R1专注于用常见的硬件配置(如4块3090或4090 GPU)进行训练,降低硬件成本。
- 日志监控:集成Wandb等工具,实现训练过程的可视化监控,帮助用户实时了解训练状态。
X-R1的项目地址
- GitHub仓库:https://github.com/dhcode-cpp/X-R1