NanoNets

docext

NanoNets

An on-premises, OCR-free unstructured data extraction, markdown conversion and benchmarking toolkit. (https://idp-leaderboard.org/)

AI 简介

docext 是一个基于本地部署的文档信息提取和基准测试工具包,不依赖OCR技术。它主要利用视觉-语言模型(VLMs)实现从PDF和图像到Markdown的转换,包括LaTeX公式、签名、水印等元素的智能识别与标记,并支持结构化信息如表格、字段等内容的无OCR提取,同时提供置信度评分。此外,该项目还维护了一个全面的性能评估平台,用于跟踪和评估各种文档处理任务中的模型表现。适用于需要对非结构化数据进行高效转换和分析的场景,如企业文档管理、学术论文整理等。

Python
Apache License 2.0
2k
Stars
144
Forks
20
Watchers
20
Issues

Star 增长

今日0
近 7 天+4
近 30 天+18
综合评分62.28
默认分支main