
flash-attention
Dao-AILab
Fast and memory-efficient exact attention
AI 简介
FlashAttention 是一个快速且内存高效的精确注意力机制实现项目。它通过IO感知技术优化了传统注意力机制在计算速度和内存使用上的表现,特别适用于需要高效处理大规模数据集的深度学习模型中。FlashAttention-2 进一步改进了并行性和工作分区策略以提高性能;而 FlashAttention-3 和 4 则针对最新的 NVIDIA Hopper 和 Blackwell 架构进行了专门优化,支持 FP16、BF16 及 FP8 数据类型,在这些硬件上实现了显著的速度提升。该项目适合于对计算资源敏感的应用场景,如自然语言处理任务中的长序列建模等。
Python
BSD 3-Clause "New" or "Revised" License24.1k
Stars
2.8k
Forks
150
Watchers
1k
Issues
Star 增长
今日+5
近 7 天+76
近 30 天+381
综合评分110
默认分支main