NVIDIA

NeMo-Retriever

NVIDIA

NeMo Retriever Library is a scalable, performance-oriented document content and metadata extraction microservice. NeMo Retriever Library uses specialized NVIDIA NIM microservices to find, contextualize, and extract text, tables, charts and images that you can use in downstream generative applications.

AI 简介

NeMo Retriever Library 是一个可扩展的、面向性能的文档内容和元数据提取微服务框架。它利用NVIDIA NIM微服务及多种模型,实现文本、表格、图表和图像等内容的查找、上下文化与提取,适用于下游生成式应用。该库支持将文档分割成页,并通过光学字符识别技术对其中的元素进行分类和提取,结果以JSON格式输出。此外,NeMo Retriever还能计算提取内容的嵌入并向LanceDB中存储这些信息。对于需要高性能和可扩展性的场景,推荐使用Kubernetes部署相关服务。此项目特别适合处理大规模文档处理任务或构建检索增强的应用程序。

Python
Apache License 2.0
2.9k
Stars
324
Forks
28
Watchers
119
Issues

Star 增长

今日+3
近 7 天+5
近 30 天+13
综合评分69.34
默认分支main