机构

Google Research

Google 的研究组织,在机器学习、系统、语言与视觉方向有大量基础工作。

DeepLab:空洞卷积语义分割把语义图像分割落到具体方法和可检查结果上,适合判断该方向的真实进展。

HOList:高阶逻辑定理证明环境把面向高阶逻辑证明的机器学习落到具体方法和可检查结果上,适合判断该方向的真实进展。

MobileBERT:端侧紧凑 BERT把面向端侧的 BERT 压缩落到具体方法和可检查结果上,适合判断该方向的真实进展。

SimCLR:对比学习视觉表征把对比式视觉表征学习落到具体方法和可检查结果上,适合判断该方向的真实进展。

谷歌研究院提出离线睡眠阶段,把短期上下文写回权重。加上睡眠后 Qwen3-8B 在 AIME-24 拿 79.2%,ARC 小样本达 80%。

BERT 用掩码语言建模预训练深度双向 Transformer 编码器,只加一层即可微调,把 GLUE 推到 80.5%,横扫 11 项 NLP 任务。

只在示例里多写几步中间推理,大模型就能解多步难题——540B 模型配 8 个思维链示例,GSM8K 达到当时最优的 57%,超过带验证器的微调版 GPT-3。

Google 的 Imagen 在未训练 COCO 的情况下取得 7.27 的 COCO FID，并发现扩展冻结的 T5-XXL 文本编码器，比扩展扩散模型本身更能提升画质与文图对齐。

540B dense Transformer,在 6144 块 TPU v4 上用 Pathways 跨两个 Pod 训练,少样本刷新纪录,BIG-bench 超过人类平均。

Switch Transformer 把混合专家简化为每个词只路由到一个专家,在同等算力下让 T5 预训练最高快 7 倍,并用 bfloat16 训练把稀疏模型扩到 1.6 万亿参数。

T5 把所有 NLP 任务都写成「文本进、文本出」,并系统横扫目标、架构、数据与规模;110 亿参数版在 GLUE、SuperGLUE、SQuAD 上刷出当时 SOTA。

ViT 把图像切成 16x16 patch 直接喂给标准 Transformer，在 JFT-300M 上预训练后超过顶尖 CNN，ImageNet 达 88.55%，且训练算力更省。

2017 年的 Transformer 抛弃循环与卷积,只用注意力,WMT14 英德 28.4 BLEU、英法 41.8 BLEU,8 卡训练 3.5 天。如今几乎所有大模型都继承它。