FlashKDA

MoonshotAI

FlashKDA: high-performance Kimi Delta Attention kernels

AI 简介

FlashKDA 是一个面向长序列建模的高性能 CUDA 内核库，专为 Kimi Delta Attention（KDA）机制提供底层加速实现。它基于 CUTLASS 构建，在 Hopper 架构（SM90+）上优化了计算吞吐与显存带宽利用率，支持 BF16 精度、门控机制、状态初始化/导出等关键特性，并可作为 flash-linear-attention 库的后端自动调度。适用于需要高效处理超长上下文的 LLM 推理、状态空间模型（SSM）训练及流式序列建模等场景。

Cuda

MIT License

在 GitHub 查看

450

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+1

综合评分44.94

默认分支master

FlashKDA

Star 增长

加入交流群