firecrawl

pdf-inspector

firecrawl

Fast Rust library for PDF inspection, classification, and text extraction. Intelligently detects scanned vs text-based PDFs to enable smart routing decisions.

AI 简介

pdf-inspector 是一个快速的 Rust 库,用于 PDF 文件的分类、文本提取和智能路由决策。它能够区分扫描版和文本版PDF文件,并提供位置感知的文本提取及Markdown转换功能,无需依赖OCR技术。项目支持Python和Node.js绑定,适用于需要高效处理大量PDF文档并进行智能路由的应用场景。其核心特点包括智能分类、精确的表格检测与多列布局识别等。特别适合在本地环境中对文本为主的PDF文件进行快速处理,以节省使用OCR服务的成本。

Rust
1.4k
Stars
135
Forks
6
Watchers
4
Issues

Star 增长

今日0
近 7 天+22
近 30 天+379
综合评分72.4
默认分支main