yanghaha0908

WavCube

yanghaha0908

Official code for "WavCube: Unifying Speech Representation for Understanding and Generation via Semantic-Acoustic Joint Modeling"

AI 简介

WavCube 是一个通过语义-声学联合建模来统一语音理解、重建和生成的项目。它提供了一个128维、50Hz连续表示的空间,能够同时支持语音信号的理解、重构与生成任务。该项目的核心特点包括统一的语音表示、语义-声学联合建模以及紧凑且易于扩散模型处理的特性(相比标准SSL特征压缩了8倍)。WavCube适合于需要高效处理语音数据的应用场景,如自动语音识别、文本转语音合成等,特别适用于希望在单一框架内实现多种语音处理功能的研究者和开发者。

Python
MIT License
61
Stars
7
Forks
3
Watchers
3
Issues

Star 增长

今日0
近 7 天+2
近 30 天+2
综合评分43.91
默认分支master