主题

代码生成

用于合成、补全或推理程序的模型与系统。

代码生成是语言模型遇到可执行现实的地方。一个有用的代码模型不能只生成流畅文本，还必须尊重语法、项目上下文、隐藏测试、安全约束和长期维护成本。

最强的研究模式是生成加验证。AlphaCode 证明，大量采样程序并过滤候选，比相信单次回答更适合解决竞赛题。Code Llama 则让开放代码专用模型更适合本地部署和微调。这个主题的下一步，是能读仓库、跑测试并修改补丁的编程智能体。

从这里开始

代码生成 · Google DeepMind

AlphaCode 解读：竞赛级代码生成

DeepMind 的 AlphaCode 给每道题生成至多百万份候选程序，再过滤、聚类压到十份提交，在五千多人参赛的 Codeforces 竞赛中平均排到前 54.3%。

代码生成 · Meta AI

Code Llama：基于 Llama 2 的开放代码模型

Code Llama 在 Llama 2 上继续训练，HumanEval 最高 67%、MBPP 最高 65%，是发布时开放模型最好成绩，支持填空与 10 万 token 上下文。

奠基论文

代码生成 · Google DeepMind

AlphaCode 解读：竞赛级代码生成

DeepMind 的 AlphaCode 给每道题生成至多百万份候选程序，再过滤、聚类压到十份提交，在五千多人参赛的 Codeforces 竞赛中平均排到前 54.3%。

代码生成 · Meta AI

Code Llama：基于 Llama 2 的开放代码模型

Code Llama 在 Llama 2 上继续训练，HumanEval 最高 67%、MBPP 最高 65%，是发布时开放模型最好成绩，支持填空与 10 万 token 上下文。

AI 智能体 · University of Illinois Urbana-Champaign

Code as Agent Harness:把代码重新定义为 AI 智能体的运行时

这篇综述提出:代码不是智能体生成的产物,而是它运行其上的可执行底座,并用「接口—机制—多智能体扩展」三层把 40 多个系统串成一张图,末尾列出七个开放问题。

AI 智能体 · MemTensor

SkillsVote:为可复用的智能体技能做全生命周期治理

SkillsVote 把智能体技能当成受治理的库:百万级语料筛选、运行前推荐、运行后门控。离线进化让 GPT-5.2 在 Terminal-Bench 2.0 上最高提升 7.9 个百分点。

近期解读

AI 智能体 · TokenRhythm Technologies

Claw-SWE-Bench:编码智能体不能只看模型

Claw-SWE-Bench 用 350 个 issue 测 coding-agent harness,完整 adapter 让 OpenClaw Pass@1 升至 73.4%。

AI 智能体 · Shanghai Jiao Tong University

SWE-Explore：编程智能体真能找对代码吗

SWE-Explore 单独考核代码探索：848 个 issue 上智能体远超 BM25（HitFile 0.65 对 0.08），但行级召回卡在 0.15-0.20，这才是真瓶颈。

代码生成 · Google DeepMind

AlphaCode 解读：竞赛级代码生成

DeepMind 的 AlphaCode 给每道题生成至多百万份候选程序，再过滤、聚类压到十份提交，在五千多人参赛的 Codeforces 竞赛中平均排到前 54.3%。

AI 智能体 · University of Illinois Urbana-Champaign

Code as Agent Harness:把代码重新定义为 AI 智能体的运行时

代码生成 · University of Waterloo

Code2LoRA:用超网络为代码模型生成仓库专属 LoRA

Code2LoRA 用超网络为代码模型生成仓库专属 LoRA 适配器,推理时零额外 token,精确匹配达仓库内 66.2%、跨仓库 63.8%,Evo 版还随 diff 增量更新。

代码生成 · Meta AI

Code Llama：基于 Llama 2 的开放代码模型

Code Llama 在 Llama 2 上继续训练，HumanEval 最高 67%、MBPP 最高 65%，是发布时开放模型最好成绩，支持填空与 10 万 token 上下文。

AI 智能体 · TokenRhythm Technologies

Claw-SWE-Bench:编码智能体不能只看模型

Claw-SWE-Bench 用 350 个 issue 测 coding-agent harness,完整 adapter 让 OpenClaw Pass@1 升至 73.4%。

AI 智能体 · Shanghai Jiao Tong University

SWE-Explore：编程智能体真能找对代码吗

SWE-Explore 单独考核代码探索：848 个 issue 上智能体远超 BM25（HitFile 0.65 对 0.08），但行级召回卡在 0.15-0.20，这才是真瓶颈。

代码生成 · Google DeepMind

AlphaCode 解读：竞赛级代码生成

DeepMind 的 AlphaCode 给每道题生成至多百万份候选程序，再过滤、聚类压到十份提交，在五千多人参赛的 Codeforces 竞赛中平均排到前 54.3%。

AI 智能体 · University of Illinois Urbana-Champaign

Code as Agent Harness:把代码重新定义为 AI 智能体的运行时

代码生成 · University of Waterloo

Code2LoRA:用超网络为代码模型生成仓库专属 LoRA

Code2LoRA 用超网络为代码模型生成仓库专属 LoRA 适配器,推理时零额外 token,精确匹配达仓库内 66.2%、跨仓库 63.8%,Evo 版还随 diff 增量更新。

代码生成 · Meta AI

Code Llama：基于 Llama 2 的开放代码模型

Code Llama 在 Llama 2 上继续训练，HumanEval 最高 67%、MBPP 最高 65%，是发布时开放模型最好成绩，支持填空与 10 万 token 上下文。

代码生成 · JetBrains

Mellum 2:跑在 2.5B 算力上的 12B 代码 MoE 模型

JetBrains 开源代码模型 Mellum 2:总参 12B、每 token 仅激活 2.5B 的混合专家,在软件任务上对标 4B-14B 稠密模型,算力却只够 2.5B。

AI 智能体 · MemTensor

SkillsVote:为可复用的智能体技能做全生命周期治理

SkillsVote 把智能体技能当成受治理的库:百万级语料筛选、运行前推荐、运行后门控。离线进化让 GPT-5.2 在 Terminal-Bench 2.0 上最高提升 7.9 个百分点。

从这里开始

奠基论文

近期解读

相关主题