FluidAudio

FluidInference

Frontier CoreML audio models in your apps — text-to-speech, speech-to-text, voice activity detection, and speaker diarization. In Swift, powered by SOTA open source.

AI 简介

FluidAudio 是一个用于在苹果设备上实现全本地、低延迟音频AI的Swift SDK，支持文本转语音、语音转文本、语音活动检测和说话人分割等功能。该SDK利用开源模型并通过Apple Neural Engine (ANE)进行推理，从而减少内存占用并提高处理速度。其核心功能包括先进的说话人分割、转录及语音活动检测，并且这些功能可以通过几行代码轻松集成到应用中。FluidAudio 适用于需要后台处理、环境计算或持续运行的工作负载场景，特别适合iOS和macOS平台上的开发者使用。

Swift

Apache License 2.0

ane asr audio automatic-speech-recognition avfoundation coreml ios macos nvidia parakeet real-time speaker-diarization speaker-embedding speaker-identification speaker-recognition speech-to-text swift vad voice-activity-detection

在 GitHub 查看官方网站

2.2k

Stars

303

Forks

Watchers

Issues

Star 增长

今日+20

近 7 天+54

近 30 天+150

综合评分109.45

默认分支main