
sam-audio
facebookresearch
The repository provides code for running inference with the Meta Segment Anything Audio Model (SAM-Audio), links for downloading the trained model checkpoints, and example notebooks that show how to use the model.
AI 简介
SAM-Audio 是一个用于从复杂音频混合中分离特定声音的基础模型,支持文本、视觉或时间提示。其核心功能包括基于自然语言描述、视频中的视觉线索或时间段来精确分离音频片段。该模型依赖于感知编码器音频-视觉(PE-AV)技术,能够实现高质量的音频分割。适用于需要精准音频处理的应用场景,如音频编辑、语音识别优化以及多媒体内容分析等。项目使用Python编写,推荐在CUDA兼容GPU上运行以获得最佳性能。
Python
Other3.5k
Stars
319
Forks
28
Watchers
43
Issues
Star 增长
今日0
近 7 天+8
近 30 天+28
综合评分66.32
默认分支main