
PureDocBench
zhihengli-casia
PureDocBench: source-traceable benchmark for document parsing across clean, degraded, and real-world settings
AI 简介
PureDocBench 是一个用于评估文档解析和OCR性能的基准测试工具,涵盖了从干净、数字降级到真实世界文档的各种场景。它通过将HTML/CSS源文件渲染成图像并基于同一结构化源进行标注,实现了对文本、表格、公式、标题及阅读顺序等元素的准确评分,减少了事后标注带来的噪声。该项目特别适合于需要在不同质量水平下测试文档解析算法有效性的研究者和开发者使用。此外,PureDocBench还提供了详细的诊断面板帮助识别现有系统中的改进空间,并支持跨多种类型的文档(如学术、商业)进行案例分析。
Python
Other31
Stars
0
Forks
30
Watchers
2
Issues
Star 增长
今日0
近 7 天0
近 30 天0
综合评分40
默认分支main