
opendataloader-pdf
opendataloader-project
PDF Parser for AI-ready data. Automate PDF accessibility. Open-source.
AI 简介
opendataloader-pdf 是一个用于从PDF文档中提取结构化数据并自动化提高PDF可访问性的开源项目。它支持将PDF文件转换为Markdown、JSON(包含边界框信息)、HTML和Tagged PDF格式,特别适用于需要将PDF内容转化为AI就绪数据的场景,如RAG/LLM管道输入或加速PDF无障碍改造。该项目采用Java 11+开发,提供Python、Node.js和Java SDK,其核心功能包括高精度的数据抽取(总体准确率0.907,表格识别准确率0.928)与自动标签化以符合PDF/UA标准。此外,它还具备处理扫描版PDF及内置OCR的能力,并能有效解析复杂布局如多列文本、表格、公式等元素。
Java
Apache License 2.024.3k
Stars
2.3k
Forks
90
Watchers
39
Issues
Star 增长
今日+67
近 7 天+1201
近 30 天+3594
综合评分120
默认分支main