MAE:可扩展视觉掩码自编码器论文详细解读
MAE:可扩展视觉掩码自编码器把视觉预训练中的掩码图像建模落到具体方法和可检查结果上,适合判断该方向的真实进展。
机构
Meta 的 AI 研究组织,以开放模型、计算机视觉系统和大规模基础设施著称。
MAE:可扩展视觉掩码自编码器把视觉预训练中的掩码图像建模落到具体方法和可检查结果上,适合判断该方向的真实进展。
Mask R-CNN:实例分割经典框架把实例分割落到具体方法和可检查结果上,适合判断该方向的真实进展。
Brain2Qwerty 用 EEG/MEG 解码短暂记忆后打字的句子:MEG 平均 CER 32%,EEG 为 67%,最佳受试者达 19%。
Mask2Former 用 masked attention 统一语义、实例和全景分割,COCO panoptic 达 57.8 PQ,ADE20K 达 57.7 mIoU。
MobileLLM 认为十亿参数以下架构比单纯堆数据更关键:深而窄设计让 125M/350M 模型提升 2.7%/4.3%,共享再加 0.7%/0.8%。
VLM3 证明一个标准 4B 视觉语言模型无需 3D 专用架构就能比肩专家模型:深度精度 0.904、相机位姿 AUC 94.0%、物体级 3D 精度 91.35%。
Code Llama 在 Llama 2 上继续训练,HumanEval 最高 67%、MBPP 最高 65%,是发布时开放模型最好成绩,支持填空与 10 万 token 上下文。
DINOv2 用无标签自监督在精选的 1.42 亿张图上预训练 ViT,骨干冻结后只加一个线性探针,就能在多数图像级与像素级基准上追平甚至超过 OpenCLIP。
Llama 2 放出 7B、13B、70B 开放权重,外加 Llama 2-Chat——第一个把 RLHF 全流程(含独立安全奖励模型与 GAtt)写清楚的开源对话模型。
这篇 2020 年的 RAG 原始论文把维基百科稠密检索器(DPR)接到 BART 生成器上,在三个开放域问答任务上刷新当时最优,还能靠换索引直接更新模型知识、无需重训。
Meta AI 的 SAM 把分割重构为可提示任务,并配套 SA-1B 数据集(1100 万图像、11 亿掩码),让单一模型零样本迁移到新对象与新分布。
Toolformer 让模型自己决定调用哪个 API、传什么参数——计算器、问答、搜索、翻译、日历——只靠保留那些能降低下一词损失的采样调用,每个工具只需几条示范。
Meta 把 Llama 3 做成一个模型家族,旗舰是 405B 参数的稠密 Transformer,支持 128K 上下文,用 15 万亿以上 token 预训练,并公开了权重。
SAM 2 用流式记忆模块让一次点击跟住整段视频里的对象,视频分割交互比此前方法少约三分之二,图像分割比初代 SAM 快 6 倍。