alibaba

OmniDoc-TokenBench

alibaba

暂无描述

AI 简介

OmniDoc-TokenBench 是一个专为评估文本丰富文档图像的VAE重建效果而设计的基准测试数据集。该项目包含约3000个样本,涵盖九种不同类型的文档(如书籍、幻灯片、彩色教科书等),支持英文和中文,并提供了一个评估工具包,支持PSNR、SSIM、LPIPS、FID以及基于OCR的NED等多种评价指标。特别地,项目引入了NED(归一化编辑距离)作为主要的文本保真度度量标准,以直接衡量原始与重建图像之间字符序列的差异。此数据集适用于需要对文档图像处理技术进行深入研究和评估的场景,尤其是在关注文本信息保持质量的应用中。

Python
Apache License 2.0
64
Stars
1
Forks
62
Watchers
1
Issues

Star 增长

今日0
近 7 天+1
近 30 天+2
综合评分38.6
默认分支main