Drift

ant-research

Drift: DLM Reinforcement Learning Training Framework

AI 简介

Drift 是一个面向扩散语言模型（DLM）的强化学习（RL）训练框架，专为优化生成过程中的决策序列而设计。它支持 LLaDA、Dream 等主流扩散语言模型，提供多种可配置的掩码策略（如顺序掩码、随机掩码）、基于置信度的块级并行解码加速机制，以及开箱即用的数学、代码、数独和倒计时等 RLVR 任务奖励函数。框架基于 PyTorch 和 DeepSpeed ZeRO-3 实现高效分布式训练，通过 YAML 配置驱动，兼容 Hugging Face Accelerate。适用于需要在离散/连续隐空间中对生成步骤进行细粒度策略优化的研究场景，如数学推理增强、程序合成优化与结构化规划任务。

Python

Apache License 2.0

在 GitHub 查看

258

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+27

综合评分46.94

默认分支main

Drift

Star 增长

加入交流群