主题

语言模型

用于大规模理解、生成和转换自然语言的模型。

研究工作站上的代码与语言模型轨迹

语言模型是现代 AI 基础设施的中心，因为它把文本变成了推理、检索、代码、智能体和多模态系统的通用接口。真正重要的研究线索不是某一个模型家族，而是一系列让规模变得有效的设计选择：双向预训练、decoder-only 少样本学习、指令跟随、算力最优训练和开放模型发布。

从 SEO 和学习路径看，这个主题应该被理解为能力迁移图谱。BERT 让预训练 encoder 成为 NLP 标准底座。GPT-3 让上下文学习变得可见。InstructGPT 说明人类偏好数据为什么重要。Chinchilla 修正了大家对数据和算力配比的直觉。Llama 类开放模型则把语言模型变成可部署生态，而不只是闭源前沿竞赛。

从这里开始

语言模型 · Google Research

BERT 解读:双向 Transformer 预训练如何重塑 NLP

BERT 用掩码语言建模预训练深度双向 Transformer 编码器,只加一层即可微调,把 GLUE 推到 80.5%,横扫 11 项 NLP 任务。

语言模型 · Google DeepMind

Chinchilla：算力最优的模型为何能打赢更大的模型

Chinchilla 证明参数量与训练 token 应等比例增长：700 亿参数、约 1.4 万亿 token，打赢 Gopher 280B 和 GPT-3 175B。

语言模型 · OpenAI

GPT-3 解读:提示词成为编程界面的时刻

GPT-3 是 1750 亿参数的自回归语言模型,仅靠提示词里的几个示例就能完成翻译、问答和推理任务,无需梯度更新或任务专用微调。

奠基论文

语言模型 · Google Research

BERT 解读:双向 Transformer 预训练如何重塑 NLP

BERT 用掩码语言建模预训练深度双向 Transformer 编码器,只加一层即可微调,把 GLUE 推到 80.5%,横扫 11 项 NLP 任务。

文本嵌入 · Independent Researcher

Sentence-BERT:孪生 BERT 句向量

Sentence-BERT:孪生 BERT 句向量把用于语义相似度的句向量落到具体方法和可检查结果上,适合判断该方向的真实进展。

小语言模型 · Hugging Face

DistilBERT:更小更快的 BERT

DistilBERT:更小更快的 BERT把紧凑语言模型的知识蒸馏落到具体方法和可检查结果上,适合判断该方向的真实进展。

语言模型 · Google Research

T5 解读:用一套文本到文本接口统一所有 NLP 任务

T5 把所有 NLP 任务都写成「文本进、文本出」,并系统横扫目标、架构、数据与规模;110 亿参数版在 GLUE、SuperGLUE、SQuAD 上刷出当时 SOTA。

近期解读

AI 智能体 · Independent Researcher

ArcANE:角色扮演智能体何时出戏

ArcANE:角色扮演智能体何时出戏把角色扮演语言智能体可靠性变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

扩散语言模型 · Independent Researcher

扩散语言模型的机会与难题论文详细解读

扩散语言模型的机会与难题把扩散语言模型研究现状落到具体方法和可检查结果上,适合判断该方向的真实进展。

小语言模型 · Hugging Face

DistilBERT:更小更快的 BERT

DistilBERT:更小更快的 BERT把紧凑语言模型的知识蒸馏落到具体方法和可检查结果上,适合判断该方向的真实进展。

文本嵌入 · Microsoft Research

E5:弱监督对比文本向量论文详细解读

E5:弱监督对比文本向量把通用文本向量落到具体方法和可检查结果上,适合判断该方向的真实进展。

扩散语言模型 · Independent Researcher

扩散语言模型的无因子化误差解码论文详细解读

扩散语言模型的无因子化误差解码把离散扩散语言模型的投机解码落到具体方法和可检查结果上,适合判断该方向的真实进展。

语言模型 · Independent Researcher

WASH:平均 3 个大模型就能洗掉文本水印

把 3 个独立大模型的输出分布做平均,水印检测 z 分数从 5-304 直接掉到 2 以下,WASH 还给出了 O(1/根号N) 的误差证明。

AI 智能体 · Independent Researcher

ArcANE:角色扮演智能体何时出戏

ArcANE:角色扮演智能体何时出戏把角色扮演语言智能体可靠性变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

扩散语言模型 · Independent Researcher

扩散语言模型的机会与难题论文详细解读

扩散语言模型的机会与难题把扩散语言模型研究现状落到具体方法和可检查结果上,适合判断该方向的真实进展。

小语言模型 · Hugging Face

DistilBERT:更小更快的 BERT

DistilBERT:更小更快的 BERT把紧凑语言模型的知识蒸馏落到具体方法和可检查结果上,适合判断该方向的真实进展。

文本嵌入 · Microsoft Research

E5:弱监督对比文本向量论文详细解读

E5:弱监督对比文本向量把通用文本向量落到具体方法和可检查结果上,适合判断该方向的真实进展。

扩散语言模型 · Independent Researcher

扩散语言模型的无因子化误差解码论文详细解读

扩散语言模型的无因子化误差解码把离散扩散语言模型的投机解码落到具体方法和可检查结果上,适合判断该方向的真实进展。

语言模型 · Independent Researcher

WASH:平均 3 个大模型就能洗掉文本水印

把 3 个独立大模型的输出分布做平均,水印检测 z 分数从 5-304 直接掉到 2 以下,WASH 还给出了 O(1/根号N) 的误差证明。

小语言模型 · Google Research

MobileBERT:端侧紧凑 BERT

MobileBERT:端侧紧凑 BERT把面向端侧的 BERT 压缩落到具体方法和可检查结果上,适合判断该方向的真实进展。

生物分子建模 · Independent Researcher

ProGen2:蛋白质语言模型设计蛋白

ProGen2:蛋白质语言模型设计蛋白把蛋白质序列建模与设计落到具体方法和可检查结果上,适合判断该方向的真实进展。

扩散语言模型 · Independent Researcher

SEDD:用概率比率做离散扩散语言模型

SEDD:用概率比率做离散扩散语言模型把离散扩散语言建模落到具体方法和可检查结果上,适合判断该方向的真实进展。

文本嵌入 · Independent Researcher

Sentence-BERT:孪生 BERT 句向量

Sentence-BERT:孪生 BERT 句向量把用于语义相似度的句向量落到具体方法和可检查结果上,适合判断该方向的真实进展。

文本嵌入 · Princeton University

SimCSE:对比学习句向量论文详细解读

SimCSE:对比学习句向量把对比式句向量学习落到具体方法和可检查结果上,适合判断该方向的真实进展。

小语言模型 · Independent Researcher

TinyLlama:开放小语言模型配方

TinyLlama:开放小语言模型配方把开放小语言模型训练落到具体方法和可检查结果上,适合判断该方向的真实进展。

扩散语言模型 · Stanford University

Diffusion-LM:用扩散过程控制文本生成

Diffusion-LM 在连续词向量上迭代去噪,让梯度引导可以控制句法等细粒度属性,而不用重新训练语言模型。

专家混合 · National University of Singapore

dMoE：扩散语言模型的块级专家路由

dMoE 让 MoE 路由对齐扩散 LLM 的块级并行解码：在 LLaDA2.0-mini 上把每块唯一专家从 69.5 降到 14.6，保留 99.11% 精度，专家显存省 76-80%。

高效 AI · Shanghai AI Laboratory

Draft-OPD：在线策略蒸馏把投机解码推过 5 倍

Draft-OPD 让草稿模型在自身起草的状态上训练。Qwen3 思考模型加速 4.86 到 4.89 倍，比 EAGLE-3 高 23%、DFlash 高 13%，且无损。

生物分子建模 · EvolutionaryScale

ESM3:把蛋白质生成做成进化模拟

ESM3 同时建模蛋白质序列、结构和功能,生成出与已知荧光蛋白仅 58% 相同、但实际发亮的新蛋白。

可解释性 · Google DeepMind

Gemma Scope:DeepMind 为 Gemma 2 开放的稀疏自编码器套件

DeepMind 开放的 JumpReLU 稀疏自编码器套件,覆盖 Gemma 2 2B 与 9B 每一层,共 400+ 个 SAE、3000 万+ 特征,免费供可解释性研究。

语言模型 · Google Research

大模型也需要睡眠:离线巩固加做梦改写权重

谷歌研究院提出离线睡眠阶段,把短期上下文写回权重。加上睡眠后 Qwen3-8B 在 AIME-24 拿 79.2%,ARC 小样本达 80%。

扩散语言模型 · Renmin University of China

LLaDA:用掩码扩散硬刚 LLaMA3 的 8B 语言模型

LLaDA 用掩码扩散取代下一个词预测,8B 模型在上下文学习上与 LLaMA3 8B 持平,GSM8K 拿 70.7,反向补诗任务还反超 GPT-4o。

小语言模型 · Meta AI

MobileLLM:面向端侧的小语言模型设计

MobileLLM 认为十亿参数以下架构比单纯堆数据更关键:深而窄设计让 125M/350M 模型提升 2.7%/4.3%,共享再加 0.7%/0.8%。

语言模型 · Xiaohongshu

NITP:预测下一个 token 的语义,而非只是它的 ID

NITP 在标准 NTP 之外加了一个稠密的表征监督:让模型预测下一个 token 的浅层表征。9B MoE 上 MMLU-Pro 提升 5.71 分,只多约 2% 训练算力,推理零开销。

可解释性 · Northeastern University

Position-aware ACD:位置感知自动电路发现

这项工作修正自动电路发现的盲点:同一组件在不同 token 位置作用不同,位置不变假设会漏掉真实机制。

小语言模型 · Hugging Face

SmolLM2:数据配方全开源的 1.7B 小模型

SmolLM2 是 1.7B 小模型,约 11T token 分四阶段过量训练。HellaSwag 68.7、MMLU-Pro 19.4 胜过 Llama3.2-1B,且四套数据集一起开源。

可解释性 · EleutherAI

稀疏自编码器:从大模型激活里找出可解释特征

在大模型激活上训练一个稀疏自编码器,能把『叠加』拆成单一含义的特征,可解释性强过神经元;还能编辑某个概念(比如撇号规则)看模型行为随之改变。

语音合成 · Microsoft Research

VALL-E:用音频 token 做零样本语音合成

VALL-E 把 TTS 改写成音频 codec token 的语言建模任务,用 6 万小时语音和 3 秒提示做个性化合成,但滥用风险很高。

检索增强生成 · Universidad de San Andres

把成对重排当主动学习:更省调用的 PRP 重排器

把 LLM 成对重排看作主动学习,锦标赛选择器在 TREC DL 上拿到 68.00 NDCG@10,LLM 调用比排序式 PRP 少 3-5 倍,随机方向 oracle 把位置偏置变噪声。

代码生成 · Google DeepMind

AlphaCode 解读：竞赛级代码生成

DeepMind 的 AlphaCode 给每道题生成至多百万份候选程序，再过滤、聚类压到十份提交，在五千多人参赛的 Codeforces 竞赛中平均排到前 54.3%。

AI 智能体 · Shanghai AI Laboratory

Pi-Bench:AI 助手能猜到你没说出口的需求吗

Pi-Bench 不只看完成度,更测「主动性」。100 个长程任务里最强的 GPT-5.4 主动性也只有 67.0%,抽走历史会话后骤降 9.5 个百分点。

语言模型 · Google Research

BERT 解读:双向 Transformer 预训练如何重塑 NLP

BERT 用掩码语言建模预训练深度双向 Transformer 编码器,只加一层即可微调,把 GLUE 推到 80.5%,横扫 11 项 NLP 任务。

大模型推理 · Google Research

思维链提示:把推理步骤写出来,如何激活大模型推理

只在示例里多写几步中间推理,大模型就能解多步难题——540B 模型配 8 个思维链示例,GSM8K 达到当时最优的 57%,超过带验证器的微调版 GPT-3。

语言模型 · Google DeepMind

Chinchilla：算力最优的模型为何能打赢更大的模型

Chinchilla 证明参数量与训练 token 应等比例增长：700 亿参数、约 1.4 万亿 token，打赢 Gopher 280B 和 GPT-3 175B。

AI 智能体 · Shanghai AI Laboratory

COLLEAGUE.SKILL:把一个人的专长蒸馏成可移植 AI 技能

COLLEAGUE.SKILL 把一个人零散的工作痕迹蒸馏成带版本、可审查的技能包,分能力与受限行为两条轨道,任何 agent 都能安装、纠正、回滚。开源系统报告约 1.85 万 star。

代码生成 · Meta AI

Code Llama：基于 Llama 2 的开放代码模型

Code Llama 在 Llama 2 上继续训练，HumanEval 最高 67%、MBPP 最高 65%，是发布时开放模型最好成绩，支持填空与 10 万 token 上下文。

对齐 · Anthropic

宪法 AI:用 AI 反馈训练无害助手

几乎不用人工标注有害内容,模型对照一份写好的原则清单自我批评并改写答案,再从 AI 生成的偏好里做强化学习(RLAIF)。

大模型推理 · Renmin University of China

DelTA:面向可验证奖励强化学习的判别式 Token 信用分配

DelTA 把 RLVR 更新重加权,让信用落在真正能区分对错的 token 上,使 Qwen3-8B-Base 平均提升 3.26 分、Qwen3-14B-Base 提升 2.62 分。

高效 AI · Shanghai Jiao Tong University

Domino:把投机解码的草稿与因果修正拆开

Domino 让并行草稿器一次性提出整块 token,再用一个轻量头补回 token 之间的因果依赖,Transformers 下加速最高 5.49 倍,SGLang 吞吐最高 5.8 倍。

大模型推理 · Alibaba Qwen Team

DVAO:按方差自适应加权的多奖励强化学习

DVAO 按各奖励在组内的方差自适应加权,而非固定系数,在 Qwen3-4B-Base 上把平均准确率从 38.99% 提到 42.19%,长度合规率从 96.39% 拉到 99.91%。

长上下文 · University of Illinois Urbana-Champaign

从上下文到技能:Ctx2Skill 让大模型自进化学技能

Ctx2Skill 用多智能体自博弈,无需人工标注或外部奖励,从长上下文中挖出自然语言技能,把 GPT-4.1 从 11.1% 提到 16.5%。

开放模型 · Google DeepMind

Gemma 解读:谷歌用 Gemini 技术造的开源权重模型

Gemma 是谷歌 DeepMind 从 Gemini 研究中提炼出的 2B 与 7B 开源权重模型,在 18 项文本任务中 11 项胜过同级开源模型,同时放出预训练与指令微调两套权重。

语言模型 · OpenAI

GPT-3 解读:提示词成为编程界面的时刻

GPT-3 是 1750 亿参数的自回归语言模型,仅靠提示词里的几个示例就能完成翻译、问答和推理任务,无需梯度更新或任务专用微调。

检索增强生成 · University of Massachusetts Amherst

GrepSeek:让搜索智能体直接 grep 语料库,而非查向量索引

GrepSeek 训练大模型用 grep 等 shell 命令直接搜原始语料、不建嵌入索引,在七个开放域问答基准上拿到最佳 F1 与精确匹配,检索最高提速 7.6 倍。

AI 智能体 · University of Illinois Urbana-Champaign

Eywa:让大模型智能体调用科学基础模型

Eywa 让大模型智能体把时序、表格交给 Chronos、TabPFN 等专用模型,而非塞进文本。EywaBench 上效用从 0.6154 提到 0.6558,省约 30% token。

高效 AI · Sapient Intelligence

HRM-Text：1500 美元从零训练 10 亿参数模型

HRM-Text 用约 1500 美元、仅 400 亿 token 从零训出 10 亿参数模型，MMLU 60.7%、GSM8K 84.5%、MATH 56.2%，靠层级循环架构而非堆算力。

对齐 · OpenAI

InstructGPT:RLHF 如何打败 100 倍大的模型

OpenAI 用人类反馈对齐 GPT-3,评估者更偏好 1.3B 的 InstructGPT 而非 175B 的 GPT-3——参数少 100 倍却更有用。

开放模型 · Meta AI

Llama 2 解读:Meta 开放权重与那套 RLHF 对话配方

Llama 2 放出 7B、13B、70B 开放权重,外加 Llama 2-Chat——第一个把 RLHF 全流程(含独立安全奖励模型与 GAtt)写清楚的开源对话模型。

多模态模型 · Microsoft Research

LLaVA 解读:视觉指令微调如何造出会看图的对话模型

LLaVA 用一层线性投影把 CLIP 编码器接到 Vicuna,再用纯文本 GPT-4 生成的图像指令数据微调,相对 GPT-4 达 85.1%,ScienceQA 达 92.53%。

长上下文 · Shanghai AI Laboratory

δ-mem:给冻结大模型加一块 8×8 在线记忆

δ-mem 给冻结的大模型挂上一块仅 8×8 的 delta 规则在线记忆,长记忆平均分较原模型提升 1.10×、较其他记忆方法提升 1.15×,无需微调、不扩上下文。

AI 智能体 · MemTensor

MemPrivacy:用可逆占位符守住端云 Agent 的记忆隐私

MemPrivacy 端侧把敏感片段换成带类型占位符交云端处理记忆,再本地还原,效用损失控制在 1.6% 内,0.6B-4B 小模型识别隐私片段反超 GPT-5.2。

语言模型 · Google Research

PaLM:用 Pathways 训练 540B dense 语言模型

540B dense Transformer,在 6144 块 TPU v4 上用 Pathways 跨两个 Pod 训练,少样本刷新纪录,BIG-bench 超过人类平均。

高效 AI · Microsoft Research

Phi-3-mini:能塞进手机、对标 GPT-3.5 的 3.8B 模型

Phi-3-mini 仅 38 亿参数,靠重度筛选加合成的「教科书级」数据训练,MMLU 69%、MT-bench 8.38,比肩 GPT-3.5,却小到能跑在手机上。

对齐 · Seoul National University

人格问卷为何测不准大模型的真实行为

给大模型做大五人格或价值观问卷,几乎预测不了它在真实提问中的表现:跨方法一致性仅 Spearman 0.31 与 0.26,而同类问卷内部高达 0.74-0.77。

开放模型 · Alibaba Qwen Team

Qwen2.5 解读:阿里从 0.5B 到 72B 的开源大模型全家桶

Qwen2.5 是阿里开源大模型家族,覆盖 0.5B 到 72B,预训练 18T tokens,开源旗舰 72B-Instruct 比肩约大它 5 倍的 Llama-3-405B。

大模型推理 · Princeton University

ReAct:推理与行动交织,如何搭起 LLM 智能体

ReAct 让模型把推理过程和搜索、API 调用等行动交替进行,削减思维链幻觉,仅凭一两个示例就在 ALFWorld 上以 34% 绝对成功率超越强化学习智能体。

检索增强生成 · Meta AI

RAG 原始论文(2020):检索增强生成是怎么来的

这篇 2020 年的 RAG 原始论文把维基百科稠密检索器(DPR)接到 BART 生成器上,在三个开放域问答任务上刷新当时最优,还能靠换索引直接更新模型知识、无需重训。

AI 智能体 · Microsoft Research

SkillOpt:把冻结智能体的技能文本当模型来训

SkillOpt 不动模型权重,只训练一份自然语言技能文档:靠有界增删改、文本学习率和留出验证门,把 GPT-5.5 在直聊场景六个基准上平均拉高 +23.5 分。

语言模型 · Google Research

T5 解读:用一套文本到文本接口统一所有 NLP 任务

T5 把所有 NLP 任务都写成「文本进、文本出」,并系统横扫目标、架构、数据与规模;110 亿参数版在 GLUE、SuperGLUE、SQuAD 上刷出当时 SOTA。

大模型推理 · Meta AI

Toolformer:语言模型如何自学使用工具

Toolformer 让模型自己决定调用哪个 API、传什么参数——计算器、问答、搜索、翻译、日历——只靠保留那些能降低下一词损失的采样调用,每个工具只需几条示范。

语言模型 · Alibaba Qwen Team

TransitLM:无地图公交路线生成的大规模数据集与基准

TransitLM 收录四座中国城市 1300 万条规划记录,让语言模型脱离地图引擎直接规划公交路线,4B 模型在最优路线上达 97.0% 连通性、71.0% 完全匹配。

文本嵌入 · Renmin University of China

EmbFilter:把大模型的解嵌入矩阵当成特征透镜

EmbFilter 把解嵌入矩阵当透镜,剥掉文本嵌入里被高频废词占据的子空间,在不微调的前提下提升零样本检索并降维。