alignment-handbook

huggingface

Robust recipes to align language models with human and AI preferences

AI 简介

这是一个面向大语言模型（LLM）对齐任务的开源实践手册，提供从数据构建、偏好建模到后训练的全流程可复现训练方案。核心覆盖RLHF、DPO、KTO、IPO、RLAIF、Constitutional AI等主流对齐范式，支持多种开源模型（如Llama、Gemma、Mixtral）及轻量级模型（SmolLM系列）的指令微调与偏好优化，并配套公开数据集、评估脚本与标准化指标。适用于需要提升模型安全性、有用性与可控性的研究者与工程师，在开源模型定制化、AI助手开发、负责任AI部署等场景中具有直接实用价值。

Python

Apache License 2.0

llm rlhf transformers

在 GitHub 查看官方网站

5.6k

Stars

492

Forks

103

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+6

综合评分64.68

默认分支main

alignment-handbook

Star 增长

加入交流群