
wvs-code
rakanWen
Code for When Vision Speaks for Sound
AI 简介
该项目提供了论文《当视觉为声音代言》的官方代码库,旨在通过Thud框架探究多模态模型是否真正验证音频或依赖于视觉-语义捷径。核心功能包括一套基于干预驱动的诊断工具,支持视频和音频处理,并集成了LLaMA-Factory进行SFT(监督微调)和DPO(决策偏好优化)训练。技术上,项目使用Python编写,依赖于FFmpeg、CUDA等系统级组件及DeepSpeed加速库。适合用于研究多模态AI模型如何处理视听信息同步问题,特别是在需要区分真实音频验证与仅依赖视觉线索的应用场景中。
Python
Apache License 2.045
Stars
2
Forks
2
Watchers
2
Issues
Star 增长
今日0
近 7 天0
近 30 天0
综合评分41.43
默认分支main