机构

Microsoft Research

微软研究院,贡献了从 ResNet 到 Phi 小模型家族等一系列基础性工作。

Arbor 用持久假设树管理科研尝试,6 个 AO 任务 held-out 结果全胜,MLE-Bench Lite Any Medal 达 86.36%。

E5:弱监督对比文本向量把通用文本向量落到具体方法和可检查结果上,适合判断该方向的真实进展。

MatterGen 是按目标性质生成无机晶体的扩散模型——它唯一真正合成出来的 TaCr2O6,实测刚度与 200 GPa 目标相差约 20%。

NaturalSpeech 2 用神经音频 codec 隐向量上的扩散模型做 TTS,训练覆盖 4.4 万小时语音和歌唱数据,重点补零样本韵律。

VALL-E 把 TTS 改写成音频 codec token 的语言建模任务,用 6 万小时语音和 3 秒提示做个性化合成,但滥用风险很高。

Mirage 把视频世界模型的 3D 记忆直接存进扩散潜空间,而非 RGB 点云,WorldScore 平均分 70.36 拿下 SOTA,端到端快 10.57 倍、显存省 55 倍。

微软 Lens 是 38 亿参数的文生图扩散模型,靠给每张图配上百词长描述,仅用 Z-Image 约 19.3% 的训练算力就追平 60 亿+ 参数对手。

LLaVA 用一层线性投影把 CLIP 编码器接到 Vicuna,再用纯文本 GPT-4 生成的图像指令数据微调,相对 GPT-4 达 85.1%,ScienceQA 达 92.53%。

LoRA 冻结预训练权重,只在每层训练一对小的低秩矩阵,可训练参数最多减少 1 万倍、显存减少 3 倍,质量不降,且推理零额外延迟。

Phi-3-mini 仅 38 亿参数,靠重度筛选加合成的「教科书级」数据训练,MMLU 69%、MT-bench 8.38,比肩 GPT-3.5,却小到能跑在手机上。

ResNet 用跳跃连接让每层只学「残差」而非整个映射,使 152 层网络可训练;集成模型在 ImageNet 上 top-5 错误率 3.57%,夺得 ILSVRC 2015 冠军。

SkillOpt 不动模型权重,只训练一份自然语言技能文档:靠有界增删改、文本学习率和留出验证门,把 GPT-5.5 在直聊场景六个基准上平均拉高 +23.5 分。