FlashQLA

QwenLM

high-performance linear attention kernel library built on TileLang

AI 简介

FlashQLA 是一个基于 TileLang 构建的高性能线性注意力核库，专为加速 GDN（Gated Delta Network）Chunked Prefill 算子设计。它通过算子融合、硬件感知代数重构及 warp-specialized 融合内核，在 NVIDIA Hopper 架构上实现前向 2–3 倍、反向 2 倍的速度提升；支持 intra-card 上下文并行、变长序列与小头数场景，并保持数值精度。适用于大语言模型预训练、边缘端智能体推理等对长序列低延迟有严苛要求的部署场景。

Python

MIT License

在 GitHub 查看

577

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+20

综合评分51.15

默认分支main

FlashQLA

Star 增长

加入交流群