trl

huggingface

Train transformer language models with reinforcement learning.

AI 简介

TRL 是一个用于对大语言模型进行强化学习后训练的开源库，支持监督微调（SFT）、直接偏好优化（DPO）、组相对策略优化（GRPO）等多种对齐技术。它深度集成 Hugging Face Transformers、Accelerate、PEFT 和 Unsloth，提供高效率、可扩展的训练能力，支持 LoRA/QLoRA 量化微调及多卡/多节点分布式训练，并内置命令行接口简化使用流程。适用于需要将基础模型与人类偏好对齐的场景，如对话系统优化、安全对齐、内容生成质量提升等研究与工程任务。

Python

Apache License 2.0

在 GitHub 查看官方网站

18.8k

Stars

2.8k

Forks

101

Watchers

224

Issues

Star 增长

今日0

近 7 天0

近 30 天+89

综合评分78.9

默认分支main

trl

Star 增长

加入交流群