daVinci-MagiHuman

GAIR-NLP

暂无描述

AI 简介

daVinci-MagiHuman 是一个面向人像生成的多模态音视频生成基础模型，支持文本到音视频（T2AV）端到端合成。其核心采用统一单流Transformer架构（15B参数、40层），通过纯自注意力机制联合建模文本、音频与视频，避免多流对齐复杂性；具备高保真人脸表情、口型-语音同步、自然肢体动作及多语言（中英日韩等）支持能力；在单张H100 GPU上可实现5秒256p视频2秒内生成，兼顾效率与质量。适用于虚拟人播报、AI教学视频生成、多语种数字人内容创作等需要高质量、低延迟人像音视频合成的场景。

Python

在 GitHub 查看

2.1k

Stars

213

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+15

综合评分54.49

默认分支main

daVinci-MagiHuman

Star 增长

加入交流群