DINOv2:不微调也能用的自监督视觉特征
DINOv2 用无标签自监督在精选的 1.42 亿张图上预训练 ViT,骨干冻结后只加一个线性探针,就能在多数图像级与像素级基准上追平甚至超过 OpenCLIP。
主题
可迁移到识别、定位与感知任务的大型视觉表征模型。
视觉基础模型把图像和视频变成可复用表征,而不是为每个任务单独训练模型。核心变化是从狭窄标签集上的分类器或检测器,转向能迁移到识别、分割、密集预测、检索和多模态推理的视觉骨干。
这个主题下的论文展示了三条互补路线。ViT 把 Transformer 的 token 接口引入图像。DINOv2 强调自监督特征和数据清洗。Segment Anything 把分割改造成可提示基础能力。SAM 2 又把这种交互模式推进到视频。它们共同解释了视觉 AI 为什么从专用基准模型走向通用感知基础设施。
DINOv2 用无标签自监督在精选的 1.42 亿张图上预训练 ViT,骨干冻结后只加一个线性探针,就能在多数图像级与像素级基准上追平甚至超过 OpenCLIP。
Meta AI 的 SAM 把分割重构为可提示任务,并配套 SA-1B 数据集(1100 万图像、11 亿掩码),让单一模型零样本迁移到新对象与新分布。
ViT 把图像切成 16x16 patch 直接喂给标准 Transformer,在 JFT-300M 上预训练后超过顶尖 CNN,ImageNet 达 88.55%,且训练算力更省。
U-Net:生物医学图像分割基线把生物医学图像分割落到具体方法和可检查结果上,适合判断该方向的真实进展。
ResNet 用跳跃连接让每层只学「残差」而非整个映射,使 152 层网络可训练;集成模型在 ImageNet 上 top-5 错误率 3.57%,夺得 ILSVRC 2015 冠军。
DeepLab:空洞卷积语义分割把语义图像分割落到具体方法和可检查结果上,适合判断该方向的真实进展。
Mask R-CNN:实例分割经典框架把实例分割落到具体方法和可检查结果上,适合判断该方向的真实进展。
SpatialClaw 用持久 Python kernel 替代僵硬工具调用,在 20 个空间推理基准上达到 59.9% 平均准确率,比近期 spatial agent 高 11.2 点。
Brain-Diffuser:fMRI 自然场景重建把从 fMRI 信号重建自然场景落到具体方法和可检查结果上,适合判断该方向的真实进展。
BYOL:没有负样本的自监督学习把无负样本自监督视觉学习落到具体方法和可检查结果上,适合判断该方向的真实进展。
DeepLab:空洞卷积语义分割把语义图像分割落到具体方法和可检查结果上,适合判断该方向的真实进展。
DIRECT:三维感知的对象插入把三维感知对象插入变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
扩散模型 · The Hong Kong Polytechnic University
GGT-100K:图像修复的生成式真值把真实图像修复数据变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
SpatialClaw 用持久 Python kernel 替代僵硬工具调用,在 20 个空间推理基准上达到 59.9% 平均准确率,比近期 spatial agent 高 11.2 点。
Brain-Diffuser:fMRI 自然场景重建把从 fMRI 信号重建自然场景落到具体方法和可检查结果上,适合判断该方向的真实进展。
BYOL:没有负样本的自监督学习把无负样本自监督视觉学习落到具体方法和可检查结果上,适合判断该方向的真实进展。
DeepLab:空洞卷积语义分割把语义图像分割落到具体方法和可检查结果上,适合判断该方向的真实进展。
DIRECT:三维感知的对象插入把三维感知对象插入变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
扩散模型 · The Hong Kong Polytechnic University
GGT-100K:图像修复的生成式真值把真实图像修复数据变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
MAE:可扩展视觉掩码自编码器把视觉预训练中的掩码图像建模落到具体方法和可检查结果上,适合判断该方向的真实进展。
Mask R-CNN:实例分割经典框架把实例分割落到具体方法和可检查结果上,适合判断该方向的真实进展。
多模态模型 · Shanghai AI Laboratory
OVO-S-Bench:流式空间智能评测把流式空间智能变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
SimCLR:对比学习视觉表征把对比式视觉表征学习落到具体方法和可检查结果上,适合判断该方向的真实进展。
TVRBench:模型能否移动到目标视角把主动三维视角复现变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
U-Net:生物医学图像分割基线把生物医学图像分割落到具体方法和可检查结果上,适合判断该方向的真实进展。
Mask2Former 用 masked attention 统一语义、实例和全景分割,COCO panoptic 达 57.8 PQ,ADE20K 达 57.7 mIoU。
VLM3 证明一个标准 4B 视觉语言模型无需 3D 专用架构就能比肩专家模型:深度精度 0.904、相机位姿 AUC 94.0%、物体级 3D 精度 91.35%。
BrainCause 用文生图模型加 fMRI 编码器对脑区做因果检验,在 260 个视觉概念上把定位假阳性从 73.4% 压到 23%。
DINOv2 用无标签自监督在精选的 1.42 亿张图上预训练 ViT,骨干冻结后只加一个线性探针,就能在多数图像级与像素级基准上追平甚至超过 OpenCLIP。
Flamingo 冻结视觉编码器和语言模型,只训练中间的跨注意力桥接层,靠提示里的几个示例就能上手新的图像和视频任务,无需微调。
LocateAnything 把整个检测框一步解出,而非逐位输出坐标,混合模式达每秒 12.7 个框,约为 Rex-Omni-3B 的 2.5 倍,3B 规模下领跑 COCO 与 LVIS。
ResNet 用跳跃连接让每层只学「残差」而非整个映射,使 152 层网络可训练;集成模型在 ImageNet 上 top-5 错误率 3.57%,夺得 ILSVRC 2015 冠军。
Meta AI 的 SAM 把分割重构为可提示任务,并配套 SA-1B 数据集(1100 万图像、11 亿掩码),让单一模型零样本迁移到新对象与新分布。
ViT 把图像切成 16x16 patch 直接喂给标准 Transformer,在 JFT-300M 上预训练后超过顶尖 CNN,ImageNet 达 88.55%,且训练算力更省。
CLIP 在 4 亿互联网图文对上训练图像与文本编码器,零样本就追平原始 ResNet-50 的 ImageNet 准确率,却完全没用它那 128 万张标注样本。
SAM 2 用流式记忆模块让一次点击跟住整段视频里的对象,视频分割交互比此前方法少约三分之二,图像分割比初代 SAM 快 6 倍。