
DeepSeek-VL2
deepseek-ai
DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding
AI 简介
DeepSeek-VL2 是一个先进的多模态理解模型,通过混合专家(MoE)架构显著提升了视觉-语言任务的处理能力。该项目的核心功能包括视觉问答、光学字符识别、文档/表格/图表理解和视觉定位等,适用于需要跨模态信息处理的应用场景。该系列模型提供了三种不同规模的版本:DeepSeek-VL2-Tiny (1.0B参数)、DeepSeek-VL2-Small (2.8B参数) 和 DeepSeek-VL2 (4.5B参数),能够满足从轻量级到高性能的不同需求。基于Python开发,并采用MIT许可证开源,适合研究者和开发者在实际项目中快速集成与应用。
Python
MIT License5.3k
Stars
1.8k
Forks
81
Watchers
101
Issues
Star 增长
今日0
近 7 天0
近 30 天+16
综合评分47.37
默认分支main