
ultravox
fixie-ai
A fast multimodal LLM for real-time voice
AI 简介
Ultravox 是一个专为实时语音交互设计的多模态大语言模型。其核心功能在于能够直接处理音频输入并生成文本输出,无需额外的语音识别步骤,从而实现更快的响应速度。基于 Llama 3、Mistral 和 Gemma 等模型训练而成,Ultravox 利用一个多模态投影器将音频直接转换为适用于大语言模型的高维空间表示。这使得它不仅能够理解文本还能理解人类语音,并且未来有望直接理解和生成包含时间与情感线索的语音。该技术特别适合需要快速语音到文本转换的应用场景,如智能客服、语音助手等。项目采用 Python 编写,遵循 MIT 许可协议,确保了开源社区的广泛参与和使用灵活性。
Python
MIT License4.4k
Stars
378
Forks
55
Watchers
57
Issues
Star 增长
今日0
近 7 天+8
近 30 天+28
综合评分56.54
默认分支main