vllm-omni

vllm-project

A framework for efficient model inference with omni-modality models

AI 简介

vLLM-Omni 是一个面向全模态（omni-modality）大模型的高效推理服务框架，支持文本、图像、音频、视频及扩散模型（如DiT）的统一部署与低开销推理。其核心基于vLLM优化的PagedAttention机制，并扩展了多模态输入处理、跨后端（CUDA/ROCm/NPU/XPU）适配、统一量化支持及增强型调度器，显著提升吞吐量与显存利用率。适用于需要高并发、低延迟服务全模态AI模型的生产场景，如多模态API平台、AIGC内容生成中台、智能体（Agent）底层模型服务等。

Python

Apache License 2.0

audio-generation diffusion image-generation inference model-serving multimodal pytorch transformer video-generation

在 GitHub 查看官方网站

5.5k

Stars

1.2k

Forks

Watchers

541

Issues

Star 增长

今日0

近 7 天0

近 30 天+175

综合评分40.29

默认分支main

vllm-omni

Star 增长

加入交流群