
FlashQLA
QwenLM
high-performance linear attention kernel library built on TileLang
AI 简介
FlashQLA 是一个基于 TileLang 构建的高性能线性注意力内核库。它通过合理的算子融合和性能优化,实现了在 NVIDIA Hopper 架构上 GDN Chunked Prefill 的前向和后向传播过程中比 FLA Triton 内核快 2-3 倍的速度提升。该项目的核心功能包括门驱动的自动单卡上下文并行、硬件友好的代数重构以及使用 TileLang 构建的融合 warp 特化内核,这些特点有助于提高 GPU SM 利用率,减少 Tensor Core、CUDA Core 和 SFU 开销,并实现数据移动与计算的有效重叠。FlashQLA 适用于预训练场景及边缘端代理推理等需要高效处理长序列数据的情况。
Python
MIT License533
Stars
44
Forks
3
Watchers
4
Issues
Star 增长
今日+2
近 7 天+11
近 30 天+57
综合评分64.16
默认分支main