
GLM-4-Voice
zai-org
GLM-4-Voice | 端到端中英语音对话模型
AI 简介
GLM-4-Voice 是一个端到端的中英文语音对话模型,能够直接处理语音输入并生成相应的语音输出。其核心功能包括实时语音对话、情感及语调调整等,并且支持流式推理以减少延迟。该模型由三部分组成:用于将音频转换为离散token的Tokenizer、基于Flow Matching架构训练的Decoder以及在大规模数据上预训练并进行模态对齐的9B参数模型。特别适合需要高效语音交互的应用场景,如智能客服、虚拟助手等。通过结合文本和语音两种模态的内容输出,GLM-4-Voice 在保持高质量回复的同时也实现了低延迟响应。
Python
Apache License 2.03.2k
Stars
281
Forks
29
Watchers
66
Issues
Star 增长
今日+4
近 7 天+8
近 30 天+12
综合评分72.55
默认分支main