Dao-AILab

flash-attention

Dao-AILab

Fast and memory-efficient exact attention

AI 简介

FlashAttention 是一个快速且内存高效的精确注意力机制实现项目。它通过IO感知技术优化了传统注意力机制在计算速度和内存使用上的表现,特别适用于需要高效处理大规模数据集的深度学习模型中。FlashAttention-2 进一步改进了并行性和工作分区策略以提高性能;而 FlashAttention-3 和 4 则针对最新的 NVIDIA Hopper 和 Blackwell 架构进行了专门优化,支持 FP16、BF16 及 FP8 数据类型,在这些硬件上实现了显著的速度提升。该项目适合于对计算资源敏感的应用场景,如自然语言处理任务中的长序列建模等。

Python
BSD 3-Clause "New" or "Revised" License
24.1k
Stars
2.8k
Forks
150
Watchers
1k
Issues

Star 增长

今日+5
近 7 天+76
近 30 天+381
综合评分110
默认分支main