MisoTTS

MisoLabsAI

Miso TTS is an 8 billion, highly emotive text-to-speech model

AI 简介

Miso TTS 是一个拥有80亿参数的高情感文本转语音模型。它基于RVQ Transformer架构，使用类似Llama 3.2的大规模骨干网络和较小的自回归音频解码器来生成高质量的对话音频。该模型支持从文本生成富有情感的语音，并且可以接受可选的音频上下文以提高输出质量。Miso TTS特别适合需要自然流畅、情感丰富的语音合成的应用场景，如虚拟助手、有声书制作以及游戏角色配音等。目前仅支持英文。

Python

Other 最后更新 2026年6月9日活跃

在 GitHub 查看

2.7k

Stars

242

Forks

Watchers

Issues

Star 增长

今日+116

近 7 天+812

近 30 天+812

综合评分109.11

默认分支main