
moshi
kyutai-labs
Moshi is a speech-text foundation model and full-duplex spoken dialogue framework. It uses Mimi, a state-of-the-art streaming neural audio codec.
AI 简介
Moshi 是一个语音-文本基础模型及全双工口语对话框架,使用了先进的流式神经音频编解码器 Mimi。其核心功能包括处理两个音频流(用户和Moshi的语音),并预测对应于Moshi自身语音的文本标记,从而提高生成质量。该模型架构结合了深度变换器与时间变换器,前者用于建模给定时间步长内的代码本依赖关系,后者则负责处理时间上的依赖性,实现了低至200毫秒的实际总体延迟。Moshi 适用于需要实时对话交互的应用场景,如客户服务聊天机器人、智能助手等。项目提供了基于PyTorch的研究版、面向iOS和Mac设备的MLX版本以及适合生产的Rust实现。
Python
Apache License 2.010.4k
Stars
968
Forks
98
Watchers
68
Issues
Star 增长
今日+29
近 7 天+64
近 30 天+181
综合评分118.96
默认分支main