GoLongRL

xiaoxuanNLP

GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment

AI 简介

GoLongRL是一个面向能力的长上下文强化学习后训练框架，旨在提升大语言模型在超长文本理解与推理任务中的结构化能力。其核心包括：（1）覆盖9类任务、2.3万样本的能力导向RLVR数据集，为总结、排序、聚合、结构化推理等提供差异化奖励信号；（2）TMN-Reweight多任务优化方法，通过任务级均值归一化和难度自适应重加权，解决跨任务奖励尺度不一致与优势估计偏差问题。适用于文档级问答、长文本摘要、多跳推理、金融/法律长文档分析等需深度长程建模的场景。

Python

在 GitHub 查看

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+3

综合评分37.3

默认分支main

GoLongRL

Star 增长

加入交流群