microsoft

Lens

microsoft

Lens is a 3.8B-parameter text-to-image diffusion model that achieves quality competitive with and in several cases surpassing models like FLUX and SD3, while requiring significantly less training compute. Key ideas include maximizing data information density per batch and accelerating convergence.

AI 简介

Lens 是一个拥有38亿参数的文本到图像生成模型,旨在以更少的训练计算资源实现与FLUX和SD3等模型相媲美甚至超越的质量。其核心功能包括通过密集字幕预训练、混合分辨率学习、GPT-OSS多层文本特征以及FLUX.2语义VAE来提高训练效率并加速收敛。该模型特别适合需要高效训练且追求高质量图像生成的应用场景,如创意设计、广告制作或个人艺术创作等领域。此外,Lens还支持灵活的分辨率设置(最高可达1440x1440),并通过强化学习调整进一步提升了视觉质量和细节表现力。

Python
MIT License
234
Stars
16
Forks
1
Watchers
6
Issues

Star 增长

今日0
近 7 天+8
近 30 天+194
综合评分57.69
默认分支main