
MEDS
Linxi000
暂无描述
AI 简介
MEDS是一个基于veRL框架的记忆增强动态奖励塑形方案,专为大语言模型的强化学习训练设计。其核心功能是通过引入历史错误信号来优化奖励机制,利用前向传递中的层间logits作为推理行为的轻量级表示,对相似错误模式进行聚类,并对重复失败施加更强的惩罚,从而促进更广泛的探索和提高推理性能及样本多样性。该项目适用于需要提升语言模型在复杂任务中表现的场景,如对话系统、文本生成等。采用Python开发,遵循Apache License 2.0开源协议。
Python
Apache License 2.0144
Stars
1
Forks
3
Watchers
2
Issues
Star 增长
今日0
近 7 天0
近 30 天+2
综合评分38.1
默认分支main