kyutai-labs

delayed-streams-modeling

kyutai-labs

Kyutai's Speech-To-Text and Text-To-Speech models based on the Delayed Streams Modeling framework.

AI 简介

该项目基于Delayed Streams Modeling框架,提供了Kyutai的语音转文字(STT)和文字转语音(TTS)模型。其核心功能包括实时音频处理、支持批量处理以提高效率,并提供词级时间戳。技术特点上,项目利用了流式推理技术,能够在接收到音频片段时立即开始转录,非常适合需要即时反馈的应用场景,如构建语音助手。此外,还针对不同使用场景提供了多种实现方式:PyTorch版本适用于研究与实验;Rust服务器版则更适合生产环境部署,能够通过WebSockets提供稳定的流式访问服务;MLX版本专为苹果设备上的本地推理设计,利用Apple Silicon进行硬件加速。此项目适合于任何需要高质量语音识别或合成解决方案的场合,尤其是对延迟敏感的应用。

Python
Apache License 2.0
2.9k
Stars
306
Forks
30
Watchers
35
Issues

Star 增长

今日0
近 7 天+5
近 30 天+13
综合评分53.26
默认分支main