facebookresearch

tuna-2

facebookresearch

Official implementation of Tuna-2: Pixel Embeddings Beat Vision Encoders for Unified Understanding and Generation

AI 简介

TUNA-2 是一个基于像素嵌入的多模态理解和生成模型。该项目通过去除视觉编码组件,简化了原始 Tuna 模型的设计,直接使用像素嵌入层处理图像输入,从而在多种多模态基准测试中表现出色。其核心技术特点包括利用直接的补丁嵌入层替代复杂的表示编码器,以及支持文本到图像生成和图像编辑等多种任务。TUNA-2 适合需要高效、高质量多模态内容生成的应用场景,如图像合成、创意设计工具等。项目采用 Python 编写,并遵循 Apache License 2.0 开源协议。

Python
Apache License 2.0
708
Stars
28
Forks
13
Watchers
8
Issues

Star 增长

今日+6
近 7 天+13
近 30 天+81
综合评分74.99
默认分支main