
delta-attention-residuals-code
wdlctc
Delta Attention Residuals - supplementary code and pretrained models
AI 简介
该项目提供了Delta Attention Residuals的官方代码及预训练模型,这是一种改进的跨层信息流机制,通过使用每子层的增量而非累积隐藏状态作为路由源,以实现更精准的信息传递。其核心功能包括两种变体:Delta AttnRes(每子层增量,质量最佳)和Delta Block(块级增量,默认选项,开销最小)。技术上基于Python实现,并支持从头训练、微调以及下游任务评估等操作,利用PyTorch进行分布式数据并行或完全分片数据并行训练。适用于需要提升大型语言模型性能的研究者与开发者,在不同规模的数据集上均表现出色,特别是在220M至8B参数量范围内。
Python
35
Stars
1
Forks
30
Watchers
1
Issues
Star 增长
今日0
近 7 天+1
近 30 天+1
综合评分38.5
默认分支main