
Model-Optimizer
NVIDIA
A unified library of SOTA model optimization techniques like quantization, distillation, pruning, neural architecture search, speculative decoding, etc. It compresses deep learning models for downstream deployment frameworks like TensorRT-LLM, TensorRT, vLLM, etc. to optimize inference speed.
AI 简介
NVIDIA Model Optimizer 是一个集成了多种先进模型优化技术(如量化、蒸馏、剪枝、推测解码等)的统一库,旨在压缩深度学习模型以提高推理速度。该项目支持Hugging Face、PyTorch或ONNX格式的模型作为输入,并通过Python API为用户提供易于组合的优化方法,生成可用于部署的量化检查点。Model Optimizer与NVIDIA Megatron-Bridge、Megatron-LM以及Hugging Face Accelerate集成,进一步增强了其在训练过程中的优化能力。此外,它还无缝对接NVIDIA AI软件生态系统中的下游推理框架,如TensorRT-LLM、TensorRT和vLLM,适用于需要高效推理性能的应用场景,比如大规模语言模型的部署。
Python
Apache License 2.02.9k
Stars
433
Forks
29
Watchers
64
Issues
Star 增长
今日+17
近 7 天+83
近 30 天+253
综合评分109.91
默认分支main