CLIP:用自然语言监督学习视觉模型
CLIP 在 4 亿互联网图文对上训练图像与文本编码器,零样本就追平原始 ResNet-50 的 ImageNet 准确率,却完全没用它那 128 万张标注样本。
快速答案
CLIP 的训练目标只有一句话:在 4 亿张互联网图文对里,判断哪段文字配哪张图。回报却很具体——不做任何针对性微调,CLIP 在 ImageNet 上零样本就追平了原始 ResNet-50 的准确率,而它为此一张 ImageNet 的 128 万标注训练图都没用过。正是这个结果,重新定义了”训练一个分类器”到底意味着什么。
从图文对里学习
传统视觉系统只会预测一份训练前就定好的固定类别表。想加一个新概念,就得补标注、再训练一轮。CLIP 把这份标签表换成了原始文本:监督信号就是这张图在网上碰巧配的那段说明文字。它用脏但海量的数据,换掉了干净但昂贵的人工标注——赌的就是规模能压过质量。
训练任务故意做得很简单。两个编码器,一个处理图像、一个处理文本,把一批图文对映射到同一个嵌入空间。对比式目标把每张图拉向它真正的配文,推开同批次里的其他配文。作者特意提到,他们先试过生成式配文,但逐字预测训练起来远比这种”哪段文字匹配”的对比写法慢得多——正是这个效率上的突破,才让 4 亿图文对训练成为可能。
不用重训的零样本分类
巧妙之处在推理阶段。因为文字和图像在同一个空间里,分类时只要把候选标签写成句子——一张{标签}的照片——编码后,挑出和图像嵌入最接近的那一个即可。不需要分类头,也不需要微调。换任务等于换提示词,所以同一份权重今天能跑 ImageNet,明天就能跑卫星影像数据集。
关键结果
- 零样本 CLIP 追平原始 ResNet-50 的 ImageNet 准确率,且没用它那 128 万张标注训练样本。
- 它在 30 多个现有视觉数据集上实现非平凡迁移,覆盖 OCR、视频动作识别、地理定位和多种细粒度分类。
- 在其中不少任务上,即便零专门训练,也能和全监督基线掰手腕。
论文的措辞值得照搬:“可与之竞争""追平 ResNet-50”,而不是”最先进”。ResNet-50 是 2015 年的老基线,在那些难的专门数据集上,CLIP 仍落后于强监督模型。真正的亮点是它的通用性,而不是在某个榜单上夺冠。
局限与存疑
CLIP 会继承未经筛选的网页数据里的偏见和噪声,论文也坦承输出反映了这些分布。零样本准确率还出奇地依赖提示词写法——把标签写成一张{标签}的照片和只写裸词,结果就不一样,这说明模型识别的更多是文字层面的关联,而非真正落地的概念。它擅长网上常见的细粒度类别(车型、食物),却在计数这类抽象或系统性任务上很弱。我的判断:CLIP 是表征上的突破,不是推理上的突破;它的”广”也让失败模式比窄任务监督分类器更难预料。
常见问题
CLIP 是什么,能做什么?
CLIP(对比式图文预训练)是 OpenAI 的模型,学的是把图像和文字对应起来。在 4 亿图文对上预训练后,它能用文字描述零样本分类图像,无需任何针对性训练。
CLIP 怎么做零样本分类?
CLIP 把候选标签写成文字(如”一张狗的照片”)和图像一起编码进同一空间,再挑出嵌入和图像最接近的标签。换任务只需换提示词,不用重训。
CLIP 为什么对 AI 重要?
CLIP 让自然语言成了视觉系统的控制界面。这个思路成了文生图、图像检索、安全过滤和多模态模型的基础——监督信号不再非得是一份干净的标签表。
CLIP 在 ImageNet 上是最先进的吗?
不是。零样本 CLIP 追平的是原始 ResNet-50(2015 年的老基线),而非现代强监督模型。它的价值在于无需重训就能跨 30 多个任务迁移,而不是单项最高分。
CLIP 让视觉可以被语言查询:在网络规模上预测哪段文字配哪张图,零样本识别就免费长了出来。原文见:https://arxiv.org/abs/2103.00020