
gptpdf
CosmosShadow
Using GPT to parse PDF
AI 简介
gptpdf 是一个使用 GPT 模型将 PDF 文档解析为 Markdown 格式的工具。它通过 VLLM(如 GPT-4o)来识别和转换文档中的文字、数学公式、表格、图片和图表等内容,整个项目代码简洁,仅有293行。该工具利用 PyMuPDF 库识别 PDF 中的非文本区域,并用大型视觉模型进行进一步解析,平均每页处理成本仅为0.013美元。gptpdf 适合需要将复杂格式的 PDF 转换成易于编辑和阅读的 Markdown 文件的场景,特别适用于学术论文、技术报告等含有丰富格式元素的文档处理。此外,该项目还提供了一个基于此库开发的可视化工具 pdfgpt-ui,方便用户更直观地操作。
Python
MIT License3.6k
Stars
264
Forks
12
Watchers
14
Issues
Star 增长
今日0
近 7 天0
近 30 天+5
综合评分39.77
默认分支main