Multimodal-RAG

liangdabiao

基于多模态 Embedding + Zilliz + Qwen 视觉理解的多模态 RAG 系统。支持 **Cohere / DashScope Embedding** 和 **DashScope / OpenRouter LLM** 双引擎切换。上传 PDF，用自然语言提问，系统自动检索最相关的页面并由 AI 生成回答。与传统 RAG 不同，本系统**不做文本提取和 OCR**，而是直接将 PDF 页面当作图片处理，通过视觉 Embedding 模型编码，完整保留表格、图表、排版、手写批注等所有视觉信息。

AI 简介

这是一个面向PDF文档的多模态RAG问答系统，不依赖OCR或文本提取，而是将PDF页面直接转为图像，通过视觉Embedding模型（如DashScope tongyi-embedding-vision-plus或Cohere embed-v4.0）生成向量，并存入Zilliz云向量数据库；用户提问后，系统检索最相关页面图像，交由Qwen系列多模态大模型（如qwen3-vl-plus）直接“看图”生成答案。技术上支持Embedding与LLM双引擎切换（DashScope/OpenRouter/Cohere），纯云端计算、零本地GPU依赖，适用于扫描件、含图表/公式/手写批注的专业PDF文档智能问答场景。

Python

在 GitHub 查看

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分39.71

默认分支main

Multimodal-RAG

Star 增长

加入交流群