flash-attention

Dao-AILab

Fast and memory-efficient exact attention

AI 简介

FlashAttention 是一个快速且内存高效的精确注意力机制实现项目。它通过IO感知技术优化了传统注意力机制在计算速度和内存使用上的表现，特别适用于需要高效处理大规模数据集的深度学习模型中。FlashAttention-2 进一步改进了并行性和工作分区策略以提高性能；而 FlashAttention-3 和 4 则针对最新的 NVIDIA Hopper 和 Blackwell 架构进行了专门优化，支持 FP16、BF16 及 FP8 数据类型，在这些硬件上实现了显著的速度提升。该项目适合于对计算资源敏感的应用场景，如自然语言处理任务中的长序列建模等。

Python

BSD 3-Clause "New" or "Revised" License

在 GitHub 查看

24.1k

Stars

2.8k

Forks

150

Watchers

Issues

Star 增长

今日+5

近 7 天+76

近 30 天+381

综合评分110

默认分支main