Model-Optimizer

NVIDIA

A unified library of SOTA model optimization techniques like quantization, distillation, pruning, neural architecture search, speculative decoding, etc. It compresses deep learning models for downstream deployment frameworks like TensorRT-LLM, TensorRT, vLLM, etc. to optimize inference speed.

AI 简介

NVIDIA Model Optimizer 是一个面向大模型推理加速的统一模型优化库，支持量化、剪枝、知识蒸馏、稀疏化和推测解码等前沿压缩技术。它提供 Python API，可对 Hugging Face、PyTorch 和 ONNX 格式模型进行端到端优化，并导出兼容 TensorRT-LLM、TensorRT、vLLM 等主流推理框架的轻量级检查点。项目深度集成 NVIDIA AI 生态（如 Megatron-Bridge、Hugging Face Accelerate），支持 PTQ/QAT 流程，适用于 GPU 服务器端 LLM 部署场景下的低延迟、高吞吐推理优化。

Python

Apache License 2.0

在 GitHub 查看官方网站

3.2k

Stars

487

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+153

综合评分70.07

默认分支main

Model-Optimizer

Star 增长

加入交流群