VITA

VITA-MLLM

✨✨[NeurIPS 2025] VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

AI 简介

VITA-1.5 是一个开源的实时多模态大语言模型，支持视觉与语音双通道输入，并具备中英文跨语言交互能力。其核心功能包括低延迟视频理解、语音指令识别、图文联合推理及端到端实时对话响应；技术特点涵盖轻量化架构设计、流式音频-视频对齐建模、以及在VLMEvalKit等主流评测集上的强泛化性能。适用于智能终端人机交互、无障碍辅助系统、教育场景实时答疑及多模态客服等需要高响应速度与多感官融合理解的实际部署场景。

Python

Other

large-multimodal-models multimodal-large-language-models omni-language-model omni-modal-video-understanding omni-model

在 GitHub 查看

2.5k

Stars

182

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+2

综合评分58.99

默认分支main

VITA

Star 增长

加入交流群