DeepSeek-VL2

deepseek-ai

DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

AI 简介

DeepSeek-VL2 是一个面向多模态理解的混合专家（MoE）视觉-语言大模型系列，支持图像与文本联合建模。其核心功能包括视觉问答、文档/表格/图表理解、OCR识别和视觉定位；采用稀疏激活的MoE架构，在保持推理效率的同时提升多任务性能。模型提供Tiny（1.0B）、Small（2.8B）和Base（4.5B）三种规模，兼容Hugging Face生态，支持本地部署与API调用。适用于需要高精度图文理解的场景，如智能客服中的截图解析、金融财报自动解读、教育领域题目图文推理及企业级文档智能处理。

Python

MIT License

在 GitHub 查看

5.3k

Stars

1.8k

Forks

Watchers

101

Issues

Star 增长

今日0

近 7 天0

近 30 天+3

综合评分66.07

默认分支main

DeepSeek-VL2

Star 增长

加入交流群