TensorRT-LLM

NVIDIA

TensorRT LLM provides users with an easy-to-use Python API to define Large Language Models (LLMs) and supports state-of-the-art optimizations to perform inference efficiently on NVIDIA GPUs. TensorRT LLM also contains components to create Python and C++ runtimes that orchestrate the inference execution in a performant way.

AI 简介

TensorRT-LLM 是一个专为 NVIDIA GPU 优化的大语言模型（LLM）推理加速框架。它提供简洁的 Python API，支持模型定义、编译与部署，并集成了定制化 CUDA 核函数、高效运行时（Python/C++ 双后端）、MoE 架构支持、稀疏注意力、CUDA Graph 优化及分布式推理（如 DWDP）等关键技术。适用于需要高吞吐、低延迟 LLM 服务的生产环境，尤其适合在数据中心级 GPU（如 Blackwell 架构）上部署千卡规模的推理服务。

Python

Other

blackwell cuda llm-serving moe pytorch

在 GitHub 查看官方网站

14.1k

Stars

2.5k

Forks

117

Watchers

605

Issues

Star 增长

今日0

近 7 天0

近 30 天+85

综合评分78.5

默认分支main

TensorRT-LLM

Star 增长

加入交流群