ScenemaAI

scenema-audio

ScenemaAI

Zero-shot expressive voice cloning and speech generation. Generate anything from short clips to full-length audiobooks with realistic emotional delivery, pacing, and breath control. Clone any voice from a 10-second reference and perform emotions the original speaker never recorded.

AI 简介

Scenema Audio 是一个零样本表达式语音克隆和语音生成工具,能够根据文本提示生成具有真实情感、节奏和呼吸控制的语音内容。该项目基于从LTX 2.3的22B参数音视频模型中提取的音频扩散变换器构建,支持通过10秒参考音频实现高质量的语音克隆,并能表现出原声未录制过的情感。它适用于电影制作、有声书等需要丰富情感表达的场景。项目使用Python编写,提供Docker快速部署方式,运行需NVIDIA GPU(16GB+显存),并利用HuggingFace进行模型管理。

Python
MIT License
514
Stars
74
Forks
4
Watchers
9
Issues

Star 增长

今日0
近 7 天+7
近 30 天+81
综合评分61.23
默认分支main