liangdabiao

Multimodal-RAG

liangdabiao

基于多模态 Embedding + Zilliz + Qwen 视觉理解的多模态 RAG 系统。支持 **Cohere / DashScope Embedding** 和 **DashScope / OpenRouter LLM** 双引擎切换。上传 PDF,用自然语言提问,系统自动检索最相关的页面并由 AI 生成回答。 与传统 RAG 不同,本系统**不做文本提取和 OCR**,而是直接将 PDF 页面当作图片处理,通过视觉 Embedding 模型编码,完整保留表格、图表、排版、手写批注等所有视觉信息。

AI 简介

Multimodal-RAG 是一个基于多模态 Embedding 和 Zilliz 的视觉理解系统,支持 Cohere/DashScope Embedding 和 DashScope/OpenRouter LLM 双引擎切换。用户上传 PDF 文件后,可以通过自然语言提问,系统会自动检索最相关的页面并由 AI 生成回答。与传统 RAG 不同,该项目直接将 PDF 页面当作图片处理,通过视觉 Embedding 模型编码,完整保留表格、图表、排版和手写批注等所有视觉信息。该系统适合处理扫描件 PDF、图文混排文档以及含公式和表格的专业资料,特别适用于需要保留文档视觉信息的场景。技术上,项目使用 PyMuPDF 将 PDF 转为图片,利用云端 API 完成所有 AI 计算,并通过 Zilliz Serverless 云向量数据库进行高效索引和搜索,无需本地 GPU 和复杂依赖。

Python
33
Stars
7
Forks
30
Watchers
0
Issues

Star 增长

今日0
近 7 天+2
近 30 天+3
综合评分41.01
默认分支main