
GoLongRL
xiaoxuanNLP
GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment
AI 简介
GoLongRL是一个面向能力的长上下文强化学习项目,通过多任务对齐技术提升模型在多种任务上的表现。其核心功能包括能力导向的数据构建和TMN-Reweight优化方法,前者提供了涵盖9种不同类型任务的23K样本数据集,后者则通过跨任务奖励尺度对齐与难度自适应重加权来提高优势估计的可靠性。该项目适用于需要处理复杂、长文本信息并执行如摘要生成、排名、聚合及结构化推理等多样化任务的场景。尽管规模较小,但GoLongRL在多个基准测试中展现出了与更大模型相媲美的性能。
Python
45
Stars
0
Forks
1
Watchers
2
Issues
Star 增长
今日0
近 7 天+1
近 30 天+1
综合评分37.6
默认分支main