
PDF-Extract-Kit
opendatalab
A Comprehensive Toolkit for High-Quality PDF Content Extraction
AI 简介
PDF-Extract-Kit 是一个用于高效提取复杂多样的PDF文档内容的开源工具包。它集成了领先的文档解析模型,包括布局检测、公式检测与识别及OCR等核心任务,确保了对不同类型文档的高质量解析。该工具包采用模块化设计,用户通过修改配置文件和少量代码即可轻松构建各种应用,极大简化了开发流程。此外,PDF-Extract-Kit 提供了全面的评估基准,帮助用户根据实际需求选择最合适的模型。此项目适用于需要高质量文档处理的场景,如文档内容提取(转换PDF为Markdown)、文档翻译、文档问答系统或文档助手应用的开发。
Python
GNU Affero General Public License v3.09.7k
Stars
732
Forks
61
Watchers
96
Issues
Star 增长
今日0
近 7 天+17
近 30 天+46
综合评分57.7
默认分支main