CLIP

openai

CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image

AI 简介

CLIP 是一个基于对比学习的多模态预训练模型，用于实现图像与文本之间的跨模态语义对齐。其核心功能是支持零样本（zero-shot）图像分类、图文匹配与检索，无需针对下游任务微调即可直接用自然语言描述进行推理；技术上采用双塔结构（图像编码器+文本编码器），通过大规模（图像, 文本）对进行对比学习训练。适用于图文检索、无障碍图像描述生成、零样本视觉识别、内容审核等需跨模态理解的场景。

Jupyter Notebook

MIT License

deep-learning machine-learning

在 GitHub 查看

34k

Stars

Forks

329

Watchers

252

Issues

Star 增长

今日0

近 7 天0

近 30 天+94

综合评分79.4

默认分支main

CLIP

Star 增长

加入交流群