
slime
THUDM
slime is an LLM post-training framework for RL Scaling.
AI 简介
slime是一个用于强化学习扩展的大规模语言模型后训练框架。它提供了两个核心功能:一是通过连接Megatron与SGLang支持高效的多模式训练,二是通过自定义数据生成接口和基于服务器的引擎实现灵活的数据生成工作流。该框架特别适用于需要对现有语言模型进行性能优化或特定任务定制化训练的场景,如提升对话系统、文本生成等应用的质量与效率。项目采用Python开发,并遵循Apache License 2.0开源许可协议,已成功应用于包括GLM系列在内的多个知名模型的后训练过程中。
Python
Apache License 2.06.1k
Stars
882
Forks
19
Watchers
196
Issues
Star 增长
今日0
近 7 天+146
近 30 天+366
综合评分94.84
默认分支main