专家混合 · Renmin University of China
Manifold Power Iteration:让 MoE 路由器更懂专家
MPI 让 MoE 路由行对齐专家权重的主奇异方向。11B MoE 平均 benchmark 准确率从 40.92 升到 42.76,训练只慢 0.2%。
机构
中国科技公司,旗下 AI Lab 在语言模型、长上下文效率与多模态系统方向持续发表研究。
专家混合 · Renmin University of China
MPI 让 MoE 路由行对齐专家权重的主奇异方向。11B MoE 平均 benchmark 准确率从 40.92 升到 42.76,训练只慢 0.2%。
用神经索引器预测下一步要用哪些 KV 块、只留在显存里,FlashMemory-DeepSeek-V4 把物理 KV 缓存压到全量基线的 13.5%,准确率几乎不降。