
GatedDeltaNet-2
NVlabs
Official PyTorch Implementation of Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention
AI 简介
Gated DeltaNet-2 是一个基于 PyTorch 的官方实现,旨在通过解耦线性注意力机制中的擦除和写入操作来改进模型性能。其核心功能包括通道级的擦除门和写入门,以及从KDA继承的通道级衰减机制,从而实现更细粒度的记忆管理。此外,该项目还支持硬件高效的训练算法,利用Triton进行快速权重计算。此项目适用于需要高效处理长序列数据的语言建模和常识推理任务,在这些场景下,Gated DeltaNet-2 展现了优于其他模型(如Mamba-2、Gated DeltaNet、KDA等)的表现,特别是在大规模文本数据集上的应用效果显著。
Python
Other207
Stars
16
Forks
2
Watchers
1
Issues
Star 增长
今日+5
近 7 天+9
近 30 天+130
综合评分68.19
默认分支main