audio-vis-align

demtmeder

Training and evaluation toolkit for audio-visual contrastive representation alignment (CLIP-style, but for audio + video).

AI 简介

Audio-Vis-Align 是一个面向音视频跨模态表征对齐的研究型工具包，实现音频与视频片段在共享隐空间中的对比学习（类似CLIP范式）。核心功能包括双塔编码器架构（基于Log-Mel谱图+Transformer的音频编码器、3D-patch ViT视觉编码器）、对称InfoNCE损失训练、分布式训练支持（DDP）、EMA优化、多种评估协议（零样本检索、线性探针等），并提供可复现的预训练与微调配置。项目代码精简（<3k行）、设计透明，适用于音视频联合表征学习、多模态检索、跨模态理解等研究场景。

Python

Other

在 GitHub 查看

223

Stars

7.1k

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分50

默认分支main

audio-vis-align

Star 增长

加入交流群