
verl
verl-project
verl/HybridFlow: A Flexible and Efficient RL Post-Training Framework
AI 简介
verl 是一个由字节跳动 Seed 团队发起并由社区维护的强化学习(RL)训练库,专为大规模语言模型(LLMs)设计。其核心功能包括易于扩展的多种RL算法、无缝集成现有LLM基础设施的模块化API以及灵活的设备映射支持。技术特点方面,它采用了混合控制器编程模型来高效执行复杂的后训练数据流,并通过3D-HybridEngine实现了高效的actor模型重分片,显著减少了通信开销和内存冗余。此外,verl 还提供了与HuggingFace等流行模型的便捷集成。此框架适用于需要对大型语言模型进行高效且灵活的强化学习训练及微调的各种场景中,尤其是在追求高吞吐量和资源利用率的情况下。
Python
Apache License 2.021.9k
Stars
4.1k
Forks
90
Watchers
1.6k
Issues
Star 增长
今日+28
近 7 天+147
近 30 天+722
综合评分120
默认分支main