Unstructured-IO

unstructured

Unstructured-IO

Convert documents to structured data effortlessly. Unstructured is open-source ETL solution for transforming complex documents into clean, structured formats for language models. Visit our website to learn more about our enterprise grade Platform product for production grade workflows, partitioning, enrichments, chunking and embedding.

AI 简介

Unstructured 是一个开源ETL解决方案,旨在将复杂的文档转换为结构化数据,以便于语言模型使用。它支持多种文件格式(如PDF、DOCX等)的解析,并通过OCR技术处理图像中的文本信息。该工具具备强大的预处理能力,包括但不限于文档分割、内容丰富化和嵌入生成等功能,适用于需要从非结构化数据中提取有价值信息的各种场景,如企业级数据流水线建设、深度学习项目的数据准备阶段等。

HTML
Apache License 2.0
14.9k
Stars
1.3k
Forks
72
Watchers
181
Issues

Star 增长

今日+6
近 7 天+55
近 30 天+208
综合评分44.29
默认分支main