主题

开放模型

开放权重模型及其背后的训练配方。

Kwai Keye-VL-2.0 是 30B-A3B 开放 MoE 多模态模型,支持 256K 上下文,在长视频、时间定位和代码智能体任务上表现突出。

TinyLlama:开放小语言模型配方把开放小语言模型训练落到具体方法和可检查结果上,适合判断该方向的真实进展。

SmolLM2 是 1.7B 小模型,约 11T token 分四阶段过量训练。HellaSwag 68.7、MMLU-Pro 19.4 胜过 Llama3.2-1B,且四套数据集一起开源。

上海 AI 实验室的 30B-A3B 开源模型 SU-01,仅用约 33.8 万条短 SFT 轨迹加 200 步两阶段 RL,就在 IMO 2025 拿到 35 分金牌线。

Code Llama 在 Llama 2 上继续训练，HumanEval 最高 67%、MBPP 最高 65%，是发布时开放模型最好成绩，支持填空与 10 万 token 上下文。

DeepSeek-V3 是 6710 亿参数混合专家模型,每 token 仅激活 370 亿,全程训练只用 278.8 万 H800 GPU 时,比肩头部闭源模型且开源权重。

Gemma 是谷歌 DeepMind 从 Gemini 研究中提炼出的 2B 与 7B 开源权重模型,在 18 项文本任务中 11 项胜过同级开源模型,同时放出预训练与指令微调两套权重。

Llama 2 放出 7B、13B、70B 开放权重,外加 Llama 2-Chat——第一个把 RLHF 全流程(含独立安全奖励模型与 GAtt)写清楚的开源对话模型。

JetBrains 开源代码模型 Mellum 2:总参 12B、每 token 仅激活 2.5B 的混合专家,在软件任务上对标 4B-14B 稠密模型,算力却只够 2.5B。

Mistral 7B 是 70 亿参数的开源模型,在所有评测基准上都胜过 Llama 2 13B,靠分组查询注意力和滑动窗口注意力做到低成本推理,且以 Apache 2.0 协议开源。

Mixtral 每层从 8 个专家中只选 2 个,共 47B 参数、每 token 仅约 13B,以 Apache 2.0 开源,持平或超过 Llama 2 70B 和 GPT-3.5。

MolmoAct2 是开源视觉-语言-动作栈,先在 3D 空间推理再动手。真实 DROID 成功率 87.1%,领先第二名 38.7 个点,推理模型 Molmo2-ER 还超过 GPT-5。

OpenSearch-VL 开源了数据、代码与权重,训练会调用真实搜索、OCR 和图像工具的视觉语言搜索智能体,30B-A3B 在七个基准上平均比 Qwen3-VL 基座提升 13.8 分。

Qwen2.5 是阿里开源大模型家族,覆盖 0.5B 到 72B,预训练 18T tokens,开源旗舰 72B-Instruct 比肩约大它 5 倍的 Llama-3-405B。

Meta 把 Llama 3 做成一个模型家族,旗舰是 405B 参数的稠密 Transformer,支持 128K 上下文,用 15 万亿以上 token 预训练,并公开了权重。