csm

SesameAILabs

A Conversational Speech Generation Model

AI 简介

CSM（Conversational Speech Model）是一个面向对话场景的端到端语音生成模型，支持基于文本和历史音频上下文生成高质量RVQ音频码流。其核心采用Llama-3.2-1B作为语言骨干，结合轻量级音频解码器输出Mimi编码，再经声码器还原为波形；支持多轮对话建模与说话人身份控制。适用于语音助手、交互式语音Demo、虚拟角色对话等需要自然语音响应的实时或离线应用场景。

Python

Apache License 2.0

在 GitHub 查看

14.7k

Stars

1.5k

Forks

739

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+9

综合评分70.42

默认分支main

csm

Star 增长

加入交流群