delayed-streams-modeling

kyutai-labs

Kyutai's Speech-To-Text and Text-To-Speech models based on the Delayed Streams Modeling framework.

AI 简介

该项目实现了基于延迟流建模（Delayed Streams Modeling, DSM）框架的语音识别（STT）与语音合成（TTS）模型，支持实时流式处理与低延迟推理。核心特性包括：支持多语言（英/法）及单语STT模型、提供词级时间戳、内置语义语音活动检测（VAD）、跨平台实现（PyTorch/Rust/MLX），兼顾研究灵活性与生产部署效率。适用于实时语音交互系统、语音助手、会议转录、端侧语音应用等对低延迟和流式处理有要求的场景。

Python

Apache License 2.0

在 GitHub 查看

Stars

309

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+7

综合评分29.47

默认分支main

delayed-streams-modeling

Star 增长

加入交流群