
OmniNFT
zghhui
Code for "OmniNFT: Modality-wise Omni Diffusion Reinforcement for Joint Audio-Video Generation"
AI 简介
OmniNFT 是一个用于联合生成音频和视频的项目,基于模态特定的全扩散负感知微调技术。其核心功能包括模态优势路由、层间梯度手术以及区域损失重加权,这些技术共同作用以提高跨模态同步的质量,并解决在多模态生成过程中常见的梯度不平衡问题。该项目特别适用于需要高质量音视频同步内容生成的场景,如多媒体艺术创作、虚拟现实体验开发等。使用Python编写,支持LTX-2及LTX-2.3模型,易于安装并通过Hugging Face平台提供预训练权重。
Python
90
Stars
5
Forks
73
Watchers
0
Issues
Star 增长
今日+2
近 7 天+8
近 30 天+16
综合评分48.93
默认分支master