flashinfer

flashinfer-ai

FlashInfer: Kernel Library for LLM Serving

AI 简介

FlashInfer 是一个面向大语言模型（LLM）推理优化的高性能 GPU 核函数库，提供统一 API 封装的注意力、GEMM 和 MoE 等核心算子。它支持多后端自动调度（如 FlashAttention-2/3、cuDNN、CUTLASS），兼容 Paged/Ragged KV 缓存、MLA/Cascade/Sparse 等新型注意力机制，并原生支持 FP8/FP4 低精度计算与 CUDAGraph/torch.compile 集成。适用于高并发、低延迟的 LLM 在线服务场景，尤其适合需动态批处理、混合预填充与解码、或多专家模型部署的生产环境。

Python

Apache License 2.0

attention cuda distributed-inference gpu jit large-large-models llm-inference moe nvidia pytorch

在 GitHub 查看官方网站

5.9k

Stars

1.1k

Forks

Watchers

419

Issues

Star 增长

今日0

近 7 天0

近 30 天+50

综合评分70.16

默认分支main

flashinfer

Star 增长

加入交流群