NVIDIA

TensorRT-LLM

NVIDIA

TensorRT LLM provides users with an easy-to-use Python API to define Large Language Models (LLMs) and supports state-of-the-art optimizations to perform inference efficiently on NVIDIA GPUs. TensorRT LLM also contains components to create Python and C++ runtimes that orchestrate the inference execution in a performant way.

AI 简介

TensorRT LLM 是一个用于在NVIDIA GPU上高效执行大规模语言模型(LLM)推理的工具。它通过提供易于使用的Python API,支持用户定义和优化LLM,并集成了针对常见操作的专业内核、高效的运行时以及可定制扩展的框架来实现高性能推理。该项目特别适用于需要快速部署和优化基于Transformer架构的大规模语言模型或视觉生成模型的应用场景,如自然语言处理任务、聊天机器人开发及图像生成等。此外,TensorRT LLM还支持创建Python和C++运行时以更高效地管理推理过程。

Python
Other
13.8k
Stars
2.5k
Forks
117
Watchers
597
Issues

Star 增长

今日+34
近 7 天+70
近 30 天+234
综合评分120
默认分支main