opendataloader-project

opendataloader-pdf

opendataloader-project

PDF Parser for AI-ready data. Automate PDF accessibility. Open-source.

AI 简介

opendataloader-pdf 是一个用于从PDF文档中提取结构化数据并自动化提高PDF可访问性的开源项目。它支持将PDF文件转换为Markdown、JSON(包含边界框信息)、HTML和Tagged PDF格式,特别适用于需要将PDF内容转化为AI就绪数据的场景,如RAG/LLM管道输入或加速PDF无障碍改造。该项目采用Java 11+开发,提供Python、Node.js和Java SDK,其核心功能包括高精度的数据抽取(总体准确率0.907,表格识别准确率0.928)与自动标签化以符合PDF/UA标准。此外,它还具备处理扫描版PDF及内置OCR的能力,并能有效解析复杂布局如多列文本、表格、公式等元素。

Java
Apache License 2.0
24.3k
Stars
2.3k
Forks
90
Watchers
39
Issues

Star 增长

今日+67
近 7 天+1201
近 30 天+3594
综合评分120
默认分支main