Agents' Last Exam:AI智能体终极考试
ALE 用 1490 个专家构建的专业任务测试智能体,覆盖 55 个数字行业,最难档平均完整通过率只有 2.6%。
机构
加州大学伯克利分校,贡献了去噪扩散模型等一批有影响力的学术工作。
ALE 用 1490 个专家构建的专业任务测试智能体,覆盖 55 个数字行业,最难档平均完整通过率只有 2.6%。
MemGPT 借来操作系统的虚拟内存:让大模型用函数调用给自己的上下文分页换入换出,深度记忆检索在 GPT-4 上做到 93.4%,而递归摘要只有 35.3%。
DDPM 训练一个网络逐步还原高斯加噪过程,在 CIFAR-10 上把 FID 打到 3.17——也为后来的 Stable Diffusion、DALL-E 2 打下了地基。