
flashinfer
flashinfer-ai
FlashInfer: Kernel Library for LLM Serving
AI 简介
FlashInfer是一个专为大规模语言模型(LLM)推理设计的高性能GPU内核库。它提供了包括注意力机制、GEMM和MoE操作在内的统一API,并支持多种后端实现,如FlashAttention-2/3、cuDNN、CUTLASS及TensorRT-LLM等,以确保在不同硬件环境下都能达到最佳性能。项目特别强调了其在预填充、解码以及混合批处理场景下的优化能力,同时支持低精度计算(FP8/FP4量化),适用于追求高效能且需兼容现代GPU架构的应用场合。此外,FlashInfer还具备生产级特性,如与CUDAGraph和torch.compile的良好兼容性,适合需要快速响应时间的服务部署。
Python
Apache License 2.05.8k
Stars
1k
Forks
50
Watchers
378
Issues
Star 增长
今日+22
近 7 天+62
近 30 天+183
综合评分115.05
默认分支main