
InsightTok
LeapLabTHU
InsightTok: Improving Text and Face Fidelity in Discrete Tokenization for Autoregressive Image Generation
AI 简介
InsightTok 是一个专为提高自回归图像生成中文本和人脸保真度而设计的离散视觉分词器。该项目通过局部化、内容感知的感知监督技术,显著提升了文本内容和面部细节在压缩表示下的保留质量,使用16倍下采样和紧凑的16,384条目码本,在相同压缩率下实现了领先于其他离散视觉分词器的文字与脸部重建效果。此外,InsightTok 相对于传统的VQGAN风格分词器仅需极小的额外训练开销,并且无需修改下游生成模型即可无缝集成到标准自回归图像生成流程中。此项目适用于需要高保真度文字或人脸图像生成的应用场景,如数字艺术创作、虚拟人物生成等。
Python
MIT License37
Stars
0
Forks
35
Watchers
1
Issues
Star 增长
今日+1
近 7 天+2
近 30 天+2
综合评分43.2
默认分支main