moshi

kyutai-labs

Moshi is a speech-text foundation model and full-duplex spoken dialogue framework. It uses Mimi, a state-of-the-art streaming neural audio codec.

AI 简介

Moshi 是一个面向实时对话的语音-文本基础模型与全双工语音交互框架。它采用 Mimi 流式神经音频编解码器，支持双向语音流建模（用户语音与系统语音同步处理），并联合预测文本输出与内部思维（inner monologue）以提升生成质量；架构包含 Depth Transformer 与 7B 参数 Temporal Transformer，端到端延迟低至 200ms。适用于实时语音助手、智能客服、多轮语音对话系统等对低延迟和自然交互要求高的场景。

Python

Apache License 2.0

在 GitHub 查看

10.5k

Stars

977

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+45

综合评分73.47

默认分支main

moshi

Star 增长

加入交流群