机构

Google DeepMind

Google 旗下前沿 AI 实验室,覆盖语言模型、机器人、科学发现与推理系统。

Google DeepMind 报告梳理 AGI 到 ASI 的四条非互斥路径,并把数据墙、资源约束、监管等瓶颈视为开放研究问题。

BYOL:没有负样本的自监督学习把无负样本自监督视觉学习落到具体方法和可检查结果上,适合判断该方向的真实进展。

这项工作把 AI 形式化证明搜索放到开放数学题上评测:最强 agent 解出 353 个 Erdos 问题中的 9 个,证明 492 个 OEIS 猜想中的 44 个。

DeepMind 开放的 JumpReLU 稀疏自编码器套件,覆盖 Gemma 2 2B 与 9B 每一层,共 400+ 个 SAE、3000 万+ 特征,免费供可解释性研究。

DeepMind 的 AlphaCode 给每道题生成至多百万份候选程序，再过滤、聚类压到十份提交，在五千多人参赛的 Codeforces 竞赛中平均排到前 54.3%。

Chinchilla 证明参数量与训练 token 应等比例增长：700 亿参数、约 1.4 万亿 token，打赢 Gopher 280B 和 GPT-3 175B。

Flamingo 冻结视觉编码器和语言模型，只训练中间的跨注意力桥接层，靠提示里的几个示例就能上手新的图像和视频任务，无需微调。

Gemma 是谷歌 DeepMind 从 Gemini 研究中提炼出的 2B 与 7B 开源权重模型,在 18 项文本任务中 11 项胜过同级开源模型,同时放出预训练与指令微调两套权重。

AlphaFold 3 用扩散网络替换了 AlphaFold 2 的结构模块,在同一个模型里预测蛋白与核酸、配体、离子、修饰残基组成的整套复合体。

AlphaGeometry 用语言模型加符号引擎,在 1 亿条合成定理上从零训练,30 道奥赛几何题解出 25 道,而此前最强方法只有 10 道。

Gemini 1.5 Pro 与 Flash 在至少 1000 万 token 的文本、视频、音频里保持 99% 以上召回,且 Pro 用更少算力追平 Gemini 1.0 Ultra。

RT-2 把机器人动作写成文本 token,联合微调网页预训练的视觉语言模型,在约 6000 次试验中涌现出对新物体、未见指令和基础推理的泛化能力。