
FlashKDA
MoonshotAI
FlashKDA: high-performance Kimi Delta Attention kernels
AI 简介
FlashKDA 是一个高性能的 Kimi Delta Attention 内核库,基于 CUTLASS 构建。它主要提供了优化的 KDA 计算内核,支持 bfloat16 数据类型,并通过 CUDA 实现了高效的并行计算。该项目特别适合需要快速处理大规模注意力机制的应用场景,例如在深度学习模型中加速推理过程。其核心功能包括自动调度、高精度门控机制以及对初始和最终状态的支持等。为了使用 FlashKDA,用户需要满足特定硬件(如 SM90 及以上架构)及软件环境要求(CUDA 12.9 和 PyTorch 2.4 或更高版本)。此外,FlashKDA 可作为 `flash-linear-attention` 库的一个后端,在适当的配置下自动启用。
Cuda
MIT License448
Stars
38
Forks
2
Watchers
4
Issues
Star 增长
今日+1
近 7 天+2
近 30 天+27
综合评分50.47
默认分支master