FlashMLA

deepseek-ai

FlashMLA: Efficient Multi-head Latent Attention Kernels

AI 简介

FlashMLA 是 DeepSeek 开发的优化注意力内核库，为 DeepSeek-V3 和 DeepSeek-V3.2-Exp 模型提供支持。该项目主要包含稀疏和密集注意力内核，其中稀疏注意力内核实现了令牌级别的预填充和解码阶段的高效处理，并引入了FP8 KV缓存技术；而密集注意力内核则针对预填充和解码阶段进行了优化。FlashMLA 通过利用 NVIDIA GPU 的高性能计算能力，在特定配置下能够达到高达数千TFlops的运算速度，尤其适用于需要大量并行计算且对延迟敏感的大规模语言模型训练与推理场景。

C++

在 GitHub 查看

12.7k

Stars

1.1k

Forks

110

Watchers

Issues

Star 增长

今日0

近 7 天+15

近 30 天+51

综合评分78.67

默认分支main