
trl
huggingface
Train transformer language models with reinforcement learning.
AI 简介
TRL 是一个用于通过强化学习训练变换器语言模型的综合库。它支持多种高级技术,包括监督微调(SFT)、组相对策略优化(GRPO)和直接偏好优化(DPO),并基于 Hugging Face 的 Transformers 生态系统构建,能够兼容各种模型架构和模态。TRL 通过利用 Hugging Face 的 Accelerate 库实现了从单个 GPU 到多节点集群的有效扩展,并且与 PEFT 集成,使得在资源有限的情况下也能对大型模型进行训练。此外,TRL 还提供了一个命令行界面,方便用户无需编写代码即可完成模型微调。此项目适用于需要对预训练的语言模型进行进一步定制化调整以适应特定任务或环境的研究人员和开发者。
Python
Apache License 2.018.6k
Stars
2.8k
Forks
103
Watchers
426
Issues
Star 增长
今日+17
近 7 天+71
近 30 天+279
综合评分120
默认分支main