
liteparse
run-llama
A fast, helpful, and open-source document parser
AI 简介
LiteParse 是一个快速、轻量且开源的文档解析工具,专注于PDF文件的高效解析。它基于PDF.js实现文本的空间解析,并提供灵活的OCR系统支持,包括内置Tesseract.js和可接入任意HTTP服务器的OCR服务,同时生成带有精确边界框信息的高质量页面截图。此外,LiteParse完全本地运行,无需依赖云端资源,支持多种输出格式(JSON和纯文本),适用于Linux、macOS及Windows平台。此工具非常适合需要在本地环境中处理PDF文档并提取其中文本信息的场景,如办公自动化、数据挖掘等。
Rust
Apache License 2.09.9k
Stars
629
Forks
34
Watchers
14
Issues
Star 增长
今日+64
近 7 天+762
近 30 天+4804
综合评分114.4
默认分支main