fastllm

ztxz16

fastllm是后端无依赖的高性能大模型推理库。同时支持张量并行推理稠密模型和混合模式推理MOE模型，任意10G以上显卡即可推理满血DeepSeek。双路9004/9005服务器+单显卡部署DeepSeek满血满精度原版模型，单并发20tps；INT4量化模型单并发30tps，多并发可达60+。

AI 简介

fastllm是一个高性能的大模型推理库，采用C++实现自有算子，不依赖PyTorch。它支持张量并行推理稠密模型和混合模式推理MOE模型，能够在任意10G以上显存的显卡上运行满精度DeepSeek等大型模型。其核心功能包括支持多种硬件平台（如NVIDIA、AMD GPU及国产GPU/NPU），支持FP8推理，以及多卡张量并行和CPU+GPU混合推理。此外，fastllm还提供了简便的安装与使用流程，只需一条命令即可完成部署，并且支持动态Batch处理和前后端分离设计，便于跨平台移植。该项目适用于需要在有限硬件资源下高效执行大规模语言模型推理的各种场景，如企业级AI服务、研究机构和个人开发者环境。

C++

在 GitHub 查看

4.8k

Stars

468

Forks

Watchers

291

Issues

Star 增长

今日+13

近 7 天+33

近 30 天+230

综合评分103.51

默认分支main