AlphaCode 解读:竞赛级代码生成
DeepMind 的 AlphaCode 给每道题生成至多百万份候选程序,再过滤、聚类压到十份提交,在五千多人参赛的 Codeforces 竞赛中平均排到前 54.3%。
主题
用于合成、补全或推理程序的模型与系统。
代码生成是语言模型遇到可执行现实的地方。一个有用的代码模型不能只生成流畅文本,还必须尊重语法、项目上下文、隐藏测试、安全约束和长期维护成本。
最强的研究模式是生成加验证。AlphaCode 证明,大量采样程序并过滤候选,比相信单次回答更适合解决竞赛题。Code Llama 则让开放代码专用模型更适合本地部署和微调。这个主题的下一步,是能读仓库、跑测试并修改补丁的编程智能体。
DeepMind 的 AlphaCode 给每道题生成至多百万份候选程序,再过滤、聚类压到十份提交,在五千多人参赛的 Codeforces 竞赛中平均排到前 54.3%。
Code Llama 在 Llama 2 上继续训练,HumanEval 最高 67%、MBPP 最高 65%,是发布时开放模型最好成绩,支持填空与 10 万 token 上下文。
DeepMind 的 AlphaCode 给每道题生成至多百万份候选程序,再过滤、聚类压到十份提交,在五千多人参赛的 Codeforces 竞赛中平均排到前 54.3%。
Code Llama 在 Llama 2 上继续训练,HumanEval 最高 67%、MBPP 最高 65%,是发布时开放模型最好成绩,支持填空与 10 万 token 上下文。
AI 智能体 · University of Illinois Urbana-Champaign
这篇综述提出:代码不是智能体生成的产物,而是它运行其上的可执行底座,并用「接口—机制—多智能体扩展」三层把 40 多个系统串成一张图,末尾列出七个开放问题。
SkillsVote 把智能体技能当成受治理的库:百万级语料筛选、运行前推荐、运行后门控。离线进化让 GPT-5.2 在 Terminal-Bench 2.0 上最高提升 7.9 个百分点。
AI 智能体 · TokenRhythm Technologies
Claw-SWE-Bench 用 350 个 issue 测 coding-agent harness,完整 adapter 让 OpenClaw Pass@1 升至 73.4%。
AI 智能体 · Shanghai Jiao Tong University
SWE-Explore 单独考核代码探索:848 个 issue 上智能体远超 BM25(HitFile 0.65 对 0.08),但行级召回卡在 0.15-0.20,这才是真瓶颈。
DeepMind 的 AlphaCode 给每道题生成至多百万份候选程序,再过滤、聚类压到十份提交,在五千多人参赛的 Codeforces 竞赛中平均排到前 54.3%。
AI 智能体 · University of Illinois Urbana-Champaign
这篇综述提出:代码不是智能体生成的产物,而是它运行其上的可执行底座,并用「接口—机制—多智能体扩展」三层把 40 多个系统串成一张图,末尾列出七个开放问题。
Code2LoRA 用超网络为代码模型生成仓库专属 LoRA 适配器,推理时零额外 token,精确匹配达仓库内 66.2%、跨仓库 63.8%,Evo 版还随 diff 增量更新。
Code Llama 在 Llama 2 上继续训练,HumanEval 最高 67%、MBPP 最高 65%,是发布时开放模型最好成绩,支持填空与 10 万 token 上下文。
AI 智能体 · TokenRhythm Technologies
Claw-SWE-Bench 用 350 个 issue 测 coding-agent harness,完整 adapter 让 OpenClaw Pass@1 升至 73.4%。
AI 智能体 · Shanghai Jiao Tong University
SWE-Explore 单独考核代码探索:848 个 issue 上智能体远超 BM25(HitFile 0.65 对 0.08),但行级召回卡在 0.15-0.20,这才是真瓶颈。
DeepMind 的 AlphaCode 给每道题生成至多百万份候选程序,再过滤、聚类压到十份提交,在五千多人参赛的 Codeforces 竞赛中平均排到前 54.3%。
AI 智能体 · University of Illinois Urbana-Champaign
这篇综述提出:代码不是智能体生成的产物,而是它运行其上的可执行底座,并用「接口—机制—多智能体扩展」三层把 40 多个系统串成一张图,末尾列出七个开放问题。
Code2LoRA 用超网络为代码模型生成仓库专属 LoRA 适配器,推理时零额外 token,精确匹配达仓库内 66.2%、跨仓库 63.8%,Evo 版还随 diff 增量更新。
Code Llama 在 Llama 2 上继续训练,HumanEval 最高 67%、MBPP 最高 65%,是发布时开放模型最好成绩,支持填空与 10 万 token 上下文。
JetBrains 开源代码模型 Mellum 2:总参 12B、每 token 仅激活 2.5B 的混合专家,在软件任务上对标 4B-14B 稠密模型,算力却只够 2.5B。
SkillsVote 把智能体技能当成受治理的库:百万级语料筛选、运行前推荐、运行后门控。离线进化让 GPT-5.2 在 Terminal-Bench 2.0 上最高提升 7.9 个百分点。