flash-linear-attention

fla-org

🚀 Efficient implementations for emerging model architectures

AI 简介

Flash Linear Attention 是一个面向高效序列建模的开源库，提供硬件友好的线性注意力、稀疏注意力、状态空间模型（SSM）及混合架构（如 Mamba、Raven、KDA、GDN）的优化实现。核心特点包括跨厂商 GPU（NVIDIA/AMD/Intel）兼容的融合算子、训练就绪的模块设计、支持长序列生成与上下文并行训练，并集成多种前沿架构（如 YOCO、MoBA、DeltaFormer）。适用于大语言模型研发、长文本建模、边缘端轻量部署及需要降低注意力计算复杂度的研究与工程场景。

Python

MIT License

large-language-models machine-learning-systems natural-language-processing sequence-modeling

在 GitHub 查看官方网站

5.3k

Stars

571

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+36

综合评分67.87

默认分支main

flash-linear-attention

Star 增长

加入交流群