BERT 解读:双向 Transformer 预训练如何重塑 NLP
BERT 用掩码语言建模预训练深度双向 Transformer 编码器,只加一层即可微调,把 GLUE 推到 80.5%,横扫 11 项 NLP 任务。
主题
用于大规模理解、生成和转换自然语言的模型。
语言模型是现代 AI 基础设施的中心,因为它把文本变成了推理、检索、代码、智能体和多模态系统的通用接口。真正重要的研究线索不是某一个模型家族,而是一系列让规模变得有效的设计选择:双向预训练、decoder-only 少样本学习、指令跟随、算力最优训练和开放模型发布。
从 SEO 和学习路径看,这个主题应该被理解为能力迁移图谱。BERT 让预训练 encoder 成为 NLP 标准底座。GPT-3 让上下文学习变得可见。InstructGPT 说明人类偏好数据为什么重要。Chinchilla 修正了大家对数据和算力配比的直觉。Llama 类开放模型则把语言模型变成可部署生态,而不只是闭源前沿竞赛。
BERT 用掩码语言建模预训练深度双向 Transformer 编码器,只加一层即可微调,把 GLUE 推到 80.5%,横扫 11 项 NLP 任务。
Chinchilla 证明参数量与训练 token 应等比例增长:700 亿参数、约 1.4 万亿 token,打赢 Gopher 280B 和 GPT-3 175B。
GPT-3 是 1750 亿参数的自回归语言模型,仅靠提示词里的几个示例就能完成翻译、问答和推理任务,无需梯度更新或任务专用微调。
BERT 用掩码语言建模预训练深度双向 Transformer 编码器,只加一层即可微调,把 GLUE 推到 80.5%,横扫 11 项 NLP 任务。
Sentence-BERT:孪生 BERT 句向量把用于语义相似度的句向量落到具体方法和可检查结果上,适合判断该方向的真实进展。
DistilBERT:更小更快的 BERT把紧凑语言模型的知识蒸馏落到具体方法和可检查结果上,适合判断该方向的真实进展。
T5 把所有 NLP 任务都写成「文本进、文本出」,并系统横扫目标、架构、数据与规模;110 亿参数版在 GLUE、SuperGLUE、SQuAD 上刷出当时 SOTA。
AI 智能体 · Independent Researcher
ArcANE:角色扮演智能体何时出戏把角色扮演语言智能体可靠性变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
扩散语言模型 · Independent Researcher
扩散语言模型的机会与难题把扩散语言模型研究现状落到具体方法和可检查结果上,适合判断该方向的真实进展。
DistilBERT:更小更快的 BERT把紧凑语言模型的知识蒸馏落到具体方法和可检查结果上,适合判断该方向的真实进展。
E5:弱监督对比文本向量把通用文本向量落到具体方法和可检查结果上,适合判断该方向的真实进展。
扩散语言模型 · Independent Researcher
扩散语言模型的无因子化误差解码把离散扩散语言模型的投机解码落到具体方法和可检查结果上,适合判断该方向的真实进展。
把 3 个独立大模型的输出分布做平均,水印检测 z 分数从 5-304 直接掉到 2 以下,WASH 还给出了 O(1/根号N) 的误差证明。
AI 智能体 · Independent Researcher
ArcANE:角色扮演智能体何时出戏把角色扮演语言智能体可靠性变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
扩散语言模型 · Independent Researcher
扩散语言模型的机会与难题把扩散语言模型研究现状落到具体方法和可检查结果上,适合判断该方向的真实进展。
DistilBERT:更小更快的 BERT把紧凑语言模型的知识蒸馏落到具体方法和可检查结果上,适合判断该方向的真实进展。
E5:弱监督对比文本向量把通用文本向量落到具体方法和可检查结果上,适合判断该方向的真实进展。
扩散语言模型 · Independent Researcher
扩散语言模型的无因子化误差解码把离散扩散语言模型的投机解码落到具体方法和可检查结果上,适合判断该方向的真实进展。
把 3 个独立大模型的输出分布做平均,水印检测 z 分数从 5-304 直接掉到 2 以下,WASH 还给出了 O(1/根号N) 的误差证明。
MobileBERT:端侧紧凑 BERT把面向端侧的 BERT 压缩落到具体方法和可检查结果上,适合判断该方向的真实进展。
生物分子建模 · Independent Researcher
ProGen2:蛋白质语言模型设计蛋白把蛋白质序列建模与设计落到具体方法和可检查结果上,适合判断该方向的真实进展。
扩散语言模型 · Independent Researcher
SEDD:用概率比率做离散扩散语言模型把离散扩散语言建模落到具体方法和可检查结果上,适合判断该方向的真实进展。
Sentence-BERT:孪生 BERT 句向量把用于语义相似度的句向量落到具体方法和可检查结果上,适合判断该方向的真实进展。
SimCSE:对比学习句向量把对比式句向量学习落到具体方法和可检查结果上,适合判断该方向的真实进展。
小语言模型 · Independent Researcher
TinyLlama:开放小语言模型配方把开放小语言模型训练落到具体方法和可检查结果上,适合判断该方向的真实进展。
Diffusion-LM 在连续词向量上迭代去噪,让梯度引导可以控制句法等细粒度属性,而不用重新训练语言模型。
专家混合 · National University of Singapore
dMoE 让 MoE 路由对齐扩散 LLM 的块级并行解码:在 LLaDA2.0-mini 上把每块唯一专家从 69.5 降到 14.6,保留 99.11% 精度,专家显存省 76-80%。
高效 AI · Shanghai AI Laboratory
Draft-OPD 让草稿模型在自身起草的状态上训练。Qwen3 思考模型加速 4.86 到 4.89 倍,比 EAGLE-3 高 23%、DFlash 高 13%,且无损。
ESM3 同时建模蛋白质序列、结构和功能,生成出与已知荧光蛋白仅 58% 相同、但实际发亮的新蛋白。
DeepMind 开放的 JumpReLU 稀疏自编码器套件,覆盖 Gemma 2 2B 与 9B 每一层,共 400+ 个 SAE、3000 万+ 特征,免费供可解释性研究。
谷歌研究院提出离线睡眠阶段,把短期上下文写回权重。加上睡眠后 Qwen3-8B 在 AIME-24 拿 79.2%,ARC 小样本达 80%。
扩散语言模型 · Renmin University of China
LLaDA 用掩码扩散取代下一个词预测,8B 模型在上下文学习上与 LLaMA3 8B 持平,GSM8K 拿 70.7,反向补诗任务还反超 GPT-4o。
MobileLLM 认为十亿参数以下架构比单纯堆数据更关键:深而窄设计让 125M/350M 模型提升 2.7%/4.3%,共享再加 0.7%/0.8%。
NITP 在标准 NTP 之外加了一个稠密的表征监督:让模型预测下一个 token 的浅层表征。9B MoE 上 MMLU-Pro 提升 5.71 分,只多约 2% 训练算力,推理零开销。
可解释性 · Northeastern University
这项工作修正自动电路发现的盲点:同一组件在不同 token 位置作用不同,位置不变假设会漏掉真实机制。
SmolLM2 是 1.7B 小模型,约 11T token 分四阶段过量训练。HellaSwag 68.7、MMLU-Pro 19.4 胜过 Llama3.2-1B,且四套数据集一起开源。
在大模型激活上训练一个稀疏自编码器,能把『叠加』拆成单一含义的特征,可解释性强过神经元;还能编辑某个概念(比如撇号规则)看模型行为随之改变。
VALL-E 把 TTS 改写成音频 codec token 的语言建模任务,用 6 万小时语音和 3 秒提示做个性化合成,但滥用风险很高。
检索增强生成 · Universidad de San Andres
把 LLM 成对重排看作主动学习,锦标赛选择器在 TREC DL 上拿到 68.00 NDCG@10,LLM 调用比排序式 PRP 少 3-5 倍,随机方向 oracle 把位置偏置变噪声。
DeepMind 的 AlphaCode 给每道题生成至多百万份候选程序,再过滤、聚类压到十份提交,在五千多人参赛的 Codeforces 竞赛中平均排到前 54.3%。
AI 智能体 · Shanghai AI Laboratory
Pi-Bench 不只看完成度,更测「主动性」。100 个长程任务里最强的 GPT-5.4 主动性也只有 67.0%,抽走历史会话后骤降 9.5 个百分点。
BERT 用掩码语言建模预训练深度双向 Transformer 编码器,只加一层即可微调,把 GLUE 推到 80.5%,横扫 11 项 NLP 任务。
只在示例里多写几步中间推理,大模型就能解多步难题——540B 模型配 8 个思维链示例,GSM8K 达到当时最优的 57%,超过带验证器的微调版 GPT-3。
Chinchilla 证明参数量与训练 token 应等比例增长:700 亿参数、约 1.4 万亿 token,打赢 Gopher 280B 和 GPT-3 175B。
AI 智能体 · Shanghai AI Laboratory
COLLEAGUE.SKILL 把一个人零散的工作痕迹蒸馏成带版本、可审查的技能包,分能力与受限行为两条轨道,任何 agent 都能安装、纠正、回滚。开源系统报告约 1.85 万 star。
Code Llama 在 Llama 2 上继续训练,HumanEval 最高 67%、MBPP 最高 65%,是发布时开放模型最好成绩,支持填空与 10 万 token 上下文。
几乎不用人工标注有害内容,模型对照一份写好的原则清单自我批评并改写答案,再从 AI 生成的偏好里做强化学习(RLAIF)。
大模型推理 · Renmin University of China
DelTA 把 RLVR 更新重加权,让信用落在真正能区分对错的 token 上,使 Qwen3-8B-Base 平均提升 3.26 分、Qwen3-14B-Base 提升 2.62 分。
高效 AI · Shanghai Jiao Tong University
Domino 让并行草稿器一次性提出整块 token,再用一个轻量头补回 token 之间的因果依赖,Transformers 下加速最高 5.49 倍,SGLang 吞吐最高 5.8 倍。
DVAO 按各奖励在组内的方差自适应加权,而非固定系数,在 Qwen3-4B-Base 上把平均准确率从 38.99% 提到 42.19%,长度合规率从 96.39% 拉到 99.91%。
长上下文 · University of Illinois Urbana-Champaign
Ctx2Skill 用多智能体自博弈,无需人工标注或外部奖励,从长上下文中挖出自然语言技能,把 GPT-4.1 从 11.1% 提到 16.5%。
Gemma 是谷歌 DeepMind 从 Gemini 研究中提炼出的 2B 与 7B 开源权重模型,在 18 项文本任务中 11 项胜过同级开源模型,同时放出预训练与指令微调两套权重。
GPT-3 是 1750 亿参数的自回归语言模型,仅靠提示词里的几个示例就能完成翻译、问答和推理任务,无需梯度更新或任务专用微调。
检索增强生成 · University of Massachusetts Amherst
GrepSeek 训练大模型用 grep 等 shell 命令直接搜原始语料、不建嵌入索引,在七个开放域问答基准上拿到最佳 F1 与精确匹配,检索最高提速 7.6 倍。
AI 智能体 · University of Illinois Urbana-Champaign
Eywa 让大模型智能体把时序、表格交给 Chronos、TabPFN 等专用模型,而非塞进文本。EywaBench 上效用从 0.6154 提到 0.6558,省约 30% token。
HRM-Text 用约 1500 美元、仅 400 亿 token 从零训出 10 亿参数模型,MMLU 60.7%、GSM8K 84.5%、MATH 56.2%,靠层级循环架构而非堆算力。
OpenAI 用人类反馈对齐 GPT-3,评估者更偏好 1.3B 的 InstructGPT 而非 175B 的 GPT-3——参数少 100 倍却更有用。
Llama 2 放出 7B、13B、70B 开放权重,外加 Llama 2-Chat——第一个把 RLHF 全流程(含独立安全奖励模型与 GAtt)写清楚的开源对话模型。
LLaVA 用一层线性投影把 CLIP 编码器接到 Vicuna,再用纯文本 GPT-4 生成的图像指令数据微调,相对 GPT-4 达 85.1%,ScienceQA 达 92.53%。
δ-mem 给冻结的大模型挂上一块仅 8×8 的 delta 规则在线记忆,长记忆平均分较原模型提升 1.10×、较其他记忆方法提升 1.15×,无需微调、不扩上下文。
MemPrivacy 端侧把敏感片段换成带类型占位符交云端处理记忆,再本地还原,效用损失控制在 1.6% 内,0.6B-4B 小模型识别隐私片段反超 GPT-5.2。
540B dense Transformer,在 6144 块 TPU v4 上用 Pathways 跨两个 Pod 训练,少样本刷新纪录,BIG-bench 超过人类平均。
Phi-3-mini 仅 38 亿参数,靠重度筛选加合成的「教科书级」数据训练,MMLU 69%、MT-bench 8.38,比肩 GPT-3.5,却小到能跑在手机上。
对齐 · Seoul National University
给大模型做大五人格或价值观问卷,几乎预测不了它在真实提问中的表现:跨方法一致性仅 Spearman 0.31 与 0.26,而同类问卷内部高达 0.74-0.77。
Qwen2.5 是阿里开源大模型家族,覆盖 0.5B 到 72B,预训练 18T tokens,开源旗舰 72B-Instruct 比肩约大它 5 倍的 Llama-3-405B。
ReAct 让模型把推理过程和搜索、API 调用等行动交替进行,削减思维链幻觉,仅凭一两个示例就在 ALFWorld 上以 34% 绝对成功率超越强化学习智能体。
这篇 2020 年的 RAG 原始论文把维基百科稠密检索器(DPR)接到 BART 生成器上,在三个开放域问答任务上刷新当时最优,还能靠换索引直接更新模型知识、无需重训。
SkillOpt 不动模型权重,只训练一份自然语言技能文档:靠有界增删改、文本学习率和留出验证门,把 GPT-5.5 在直聊场景六个基准上平均拉高 +23.5 分。
T5 把所有 NLP 任务都写成「文本进、文本出」,并系统横扫目标、架构、数据与规模;110 亿参数版在 GLUE、SuperGLUE、SQuAD 上刷出当时 SOTA。
Toolformer 让模型自己决定调用哪个 API、传什么参数——计算器、问答、搜索、翻译、日历——只靠保留那些能降低下一词损失的采样调用,每个工具只需几条示范。
TransitLM 收录四座中国城市 1300 万条规划记录,让语言模型脱离地图引擎直接规划公交路线,4B 模型在最优路线上达 97.0% 连通性、71.0% 完全匹配。
文本嵌入 · Renmin University of China
EmbFilter 把解嵌入矩阵当透镜,剥掉文本嵌入里被高频废词占据的子空间,在不微调的前提下提升零样本检索并降维。