demtmeder

audio-vis-align

demtmeder

Training and evaluation toolkit for audio-visual contrastive representation alignment (CLIP-style, but for audio + video).

AI 简介

Audio-Vis-Align 是一个用于音频-视觉对比表示对齐的训练和评估工具包,旨在通过联合训练两个单模态编码器,使同步的音频和视频片段在共享空间中的嵌入向量接近,而不同步的片段则被推开。项目基于 Python 语言开发,使用 PyTorch 框架,并采用类似 CLIP 的方法实现对齐。其核心功能包括数据准备、分布式训练(支持 DDP)、EMA 和余弦调度等高级特性,以及多种评估模式如检索、零样本分类和线性探针评估。此外,它还提供了几种损失函数变体,包括考虑难负样本的 InfoNCE 损失。该工具包适用于需要研究或应用跨模态学习的研究人员和开发者,特别是在多媒体内容分析、音视频理解等领域。

Python
Other
223
Stars
7.1k
Forks
6
Watchers
0
Issues

Star 增长

今日0
近 7 天0
近 30 天+149
综合评分60
默认分支main