
scenema-audio
ScenemaAI
Zero-shot expressive voice cloning and speech generation. Generate anything from short clips to full-length audiobooks with realistic emotional delivery, pacing, and breath control. Clone any voice from a 10-second reference and perform emotions the original speaker never recorded.
AI 简介
Scenema Audio 是一个零样本表达式语音克隆和语音生成工具,能够根据文本提示生成具有真实情感、节奏和呼吸控制的语音内容。该项目基于从LTX 2.3的22B参数音视频模型中提取的音频扩散变换器构建,支持通过10秒参考音频实现高质量的语音克隆,并能表现出原声未录制过的情感。它适用于电影制作、有声书等需要丰富情感表达的场景。项目使用Python编写,提供Docker快速部署方式,运行需NVIDIA GPU(16GB+显存),并利用HuggingFace进行模型管理。
Python
MIT License514
Stars
74
Forks
4
Watchers
9
Issues
Star 增长
今日0
近 7 天+7
近 30 天+81
综合评分61.23
默认分支main