OpenBMB

MiniCPM-o

OpenBMB

A Gemini 2.5 Flash Level MLLM for Vision, Speech, and Full-Duplex Multimodal Live Streaming on Your Phone

AI 简介

MiniCPM-o 是一个针对手机端设计的多模态大语言模型,支持视觉、语音和全双工多模态实时流媒体。其核心功能包括处理图像、视频、文本和音频输入,并提供高质量的文本和语音输出。该模型系列特别注重性能与部署效率,其中 MiniCPM-o 4.5 版本拥有 90 亿参数,接近 Gemini 2.5 Flash 水平,在视觉、语音及全双工多模态直播方面表现尤为突出,能够实现同时观看、聆听与说话的实时全方位对话,并支持主动交互如提醒等。此外,还增强了语音模式下的自然度、表达力及稳定性,以及视觉能力如强大的 OCR 功能和多语言支持。适用于需要在移动设备上进行高效多模态处理的应用场景,例如智能助手、在线教育或虚拟客服等。

Python
Apache License 2.0
24.5k
Stars
1.9k
Forks
24.5k
Watchers
45
Issues

Star 增长

今日0
近 7 天0
近 30 天0
综合评分69.84
默认分支main