oomol-lab

pdf-craft

oomol-lab

PDF craft can convert PDF files into various other formats. This project will focus on processing PDF files of scanned books.

AI 简介

PDF Craft 是一个专注于将扫描书籍的PDF文件转换成多种其他格式(如Markdown和EPUB)的工具。该项目基于DeepSeek OCR技术,能够识别复杂的文档内容,包括表格和公式,并支持GPU加速以提高处理速度。它能自动识别文档结构、准确提取正文并过滤掉页眉页脚等干扰元素,特别适用于包含脚注、公式及表格的学术或技术文档的转换。最终生成的文件保持了原书的内容完整性和可读性。此外,从v1.0.0版本开始,pdf-craft不再依赖LLM进行文本校正,转而完全采用DeepSeek OCR,实现了更快的本地转换过程。

Python
MIT License
5.7k
Stars
397
Forks
21
Watchers
46
Issues

Star 增长

今日0
近 7 天+21
近 30 天+107
综合评分84.3
默认分支main