text-extract-api

CatchTheTornado

Document (PDF, Word, PPTX ...) extraction and parse API using state of the art modern OCRs + Ollama supported models. Anonymize documents. Remove PII. Convert any document or picture to structured JSON or Markdown

AI 简介

text-extract-api 是一个用于从图像、PDF或Office文档中提取并解析文本到Markdown或JSON格式的API，支持最新的OCR技术和Ollama模型。其核心功能包括高精度的文本和表格数据提取、使用多种OCR策略（如Llama 3.2-vision、EasyOCR）进行转换、利用LLM改进OCR结果、去除个人身份信息（PII）、分布式队列处理（通过Celery）以及缓存机制（使用Redis）。此外，它还提供了灵活的存储策略选项（如Google Drive、本地文件系统等）和命令行工具以方便用户操作。此项目适用于需要高效准确地将各种文档转换为结构化数据，并且对隐私保护有较高要求的场景，例如医疗报告和财务发票处理。

Python

MIT License

anonymization api extract json llm ocr ocr-python pdf pii

在 GitHub 查看官方网站

3.1k

Stars

276

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+6

综合评分49.93

默认分支main