VITA-MLLM

VITA

VITA-MLLM

✨✨[NeurIPS 2025] VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

AI 简介

VITA-1.5 是一个面向实时视觉和语音交互的多模态大模型,目标是达到GPT-4o级别的性能。该项目采用Python语言开发,支持英文和中文双语处理。VITA-1.5 的核心功能包括实时的视觉理解和语音交互能力,能够处理视频、图像及语音等多种类型的数据,并且具备强大的多模态理解与生成能力。该模型特别适用于需要高效、准确地处理多模态信息的应用场景,如智能客服、虚拟助手、教育辅助工具等。通过ModelScope平台提供的基本演示,用户可以直观体验到VITA-1.5的强大功能。

Python
Other
2.5k
Stars
181
Forks
46
Watchers
58
Issues

Star 增长

今日0
近 7 天+1
近 30 天+4
综合评分59.68
默认分支main