opendatalab

MinerU

opendatalab

Transforms complex documents like PDFs and Office docs into LLM-ready markdown/JSON for your Agentic workflows.

AI 简介

MinerU 是一个用于将复杂文档(如PDF和Office文档)转换为适合大语言模型使用的Markdown或JSON格式的工具。它利用了先进的OCR、布局分析以及解析技术,能够准确地提取并转换文档中的数据结构与内容,支持多种文件类型包括PDF、DOCX、PPTX和XLSX等。该工具特别适用于需要对大量非结构化文本数据进行预处理以供后续AI应用开发的场景,比如构建基于文档的知识图谱、自动化报告生成系统等。其Python实现使得集成到现有工作流中变得简单高效。

Python
Other
67.1k
Stars
5.7k
Forks
247
Watchers
6
Issues

Star 增长

今日+134
近 7 天+844
近 30 天+4660
综合评分120
默认分支master