zghhui

OmniNFT

zghhui

Code for "OmniNFT: Modality-wise Omni Diffusion Reinforcement for Joint Audio-Video Generation"

AI 简介

OmniNFT 是一个用于联合生成音频和视频的项目,基于模态特定的全扩散负感知微调技术。其核心功能包括模态优势路由、层间梯度手术以及区域损失重加权,这些技术共同作用以提高跨模态同步的质量,并解决在多模态生成过程中常见的梯度不平衡问题。该项目特别适用于需要高质量音视频同步内容生成的场景,如多媒体艺术创作、虚拟现实体验开发等。使用Python编写,支持LTX-2及LTX-2.3模型,易于安装并通过Hugging Face平台提供预训练权重。

Python
90
Stars
5
Forks
73
Watchers
0
Issues

Star 增长

今日+2
近 7 天+8
近 30 天+16
综合评分48.93
默认分支master