wvs-code

rakanWen

Code for When Vision Speaks for Sound

AI 简介

这是一个用于评估视频多模态大模型音频理解能力的诊断框架（Thud），旨在检测模型是否真正利用音频信息，还是仅依赖视觉语义捷径。项目提供干预式评测代码、预训练模型接口及SFT/DPO训练支持，基于LLaMA-Factory实现，支持ShareGPT格式的音视频-文本对齐数据，具备细粒度时序对齐验证与对比响应评估能力。适用于多模态AI可信性研究、音视频联合推理能力测评、模型鲁棒性分析等科研与模型诊断场景。

Python

Apache License 2.0

在 GitHub 查看

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+19

综合评分43.33

默认分支main

wvs-code

Star 增长

加入交流群