机构

NVIDIA

英伟达的研究力量,以加速计算和 AI 研究著称,覆盖生成模型、世界模型与面向具身智能的机器人技术。

MSA 让每个查询组只看 2048 个被选中的 KV token,在 1M 上下文报告 28.4 倍注意力 FLOPs 降低、14.2 倍 prefill 加速。

SpatialClaw 用持久 Python kernel 替代僵硬工具调用,在 20 个空间推理基准上达到 59.9% 平均准确率,比近期 spatial agent 高 11.2 点。

SANA-Streaming 在单张 RTX 5090 上 24 FPS 端到端实时编辑 1280x704 视频，DiT 核心达 58 FPS，靠混合 DiT 与循环反向正则化保证时序一致。

AnyFlow 蒸馏出一个会随采样步数增加而持续变好的视频扩散模型,修掉了一致性蒸馏模型步数变多反而变差的毛病。在 Wan2.1 上从 1.3B 到 14B 参数、双向与因果架构均做了验证。

Cosmos 3 把语言、图像、视频、音频、机器人动作塞进一个混合 Transformer 模型,英伟达称它在文生图、图生视频以及 RoboArena 策略榜上都拿到开源第一。

英伟达的多人交互视频世界模型，蒸馏后以 24 FPS 实时推理，从两人到四人无需重新训练，FVD 较 Solaris 几乎砍半。

LongLive-2.0 让 5B 长视频模型全程跑在 NVFP4 4 比特上,720p 达 45.7 FPS,训练快 2.1 倍、推理快 1.84 倍,VBench 仅降半分。

LocateAnything 把整个检测框一步解出,而非逐位输出坐标,混合模式达每秒 12.7 个框,约为 Rex-Omni-3B 的 2.5 倍,3B 规模下领跑 COCO 与 LVIS。

MulTaBench 是含 40 个数据集的多模态表格基准,每个任务都须同时用上表格与图像/文本。核心结论:针对目标微调的嵌入,在所有学习器上都胜过冻结嵌入。