
csm
SesameAILabs
A Conversational Speech Generation Model
AI 简介
CSM(Conversational Speech Model)是一个由Sesame开发的语音生成模型,能够根据文本和音频输入生成RVQ音频编码。该模型基于Llama架构,并使用一个小型音频解码器来产生Mimi音频编码,具备强大的对话式语音合成能力。CSM适合用于需要高质量语音合成的应用场景,如虚拟助手、在线教育或娱乐内容创作等,特别是在追求自然流畅对话体验的情况下。此外,通过Hugging Face平台的支持,用户可以轻松访问并测试CSM-1B版本,降低了技术门槛,使得更多开发者能够利用这一先进工具进行创新。
Python
Apache License 2.014.7k
Stars
1.5k
Forks
739
Watchers
9
Issues
Star 增长
今日+1
近 7 天+13
近 30 天+37
综合评分81.72
默认分支main