机构

Independent Researcher

无署名机构的独立研究者发表的工作。

AI 智能体 · Independent Researcher

AdaPlanBench:测试智能体自适应规划

AdaPlanBench:测试智能体自适应规划把约束下的自适应规划变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

世界模型 · Independent Researcher

AnchorWorld:具身视角世界模拟

AnchorWorld:具身视角世界模拟把自我视角世界模拟变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · Independent Researcher

ArcANE:角色扮演智能体何时出戏

ArcANE:角色扮演智能体何时出戏把角色扮演语言智能体可靠性变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

脑解码 · Independent Researcher

Brain-Diffuser:fMRI 自然场景重建

Brain-Diffuser:fMRI 自然场景重建把从 fMRI 信号重建自然场景落到具体方法和可检查结果上,适合判断该方向的真实进展。

扩散语言模型 · Independent Researcher

扩散语言模型的机会与难题论文详细解读

扩散语言模型的机会与难题把扩散语言模型研究现状落到具体方法和可检查结果上,适合判断该方向的真实进展。

文生图 · Independent Researcher

DIRECT:三维感知的对象插入

DIRECT:三维感知的对象插入把三维感知对象插入变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

脑解码 · Independent Researcher

DreamDiffusion:从 EEG 生成图像

DreamDiffusion:从 EEG 生成图像把从 EEG 信号生成图像落到具体方法和可检查结果上,适合判断该方向的真实进展。

生物分子建模 · Independent Researcher

DynamicMPNN:多状态蛋白质设计

DynamicMPNN:多状态蛋白质设计把多构象蛋白质序列设计落到具体方法和可检查结果上,适合判断该方向的真实进展。

扩散语言模型 · Independent Researcher

扩散语言模型的无因子化误差解码论文详细解读

扩散语言模型的无因子化误差解码把离散扩散语言模型的投机解码落到具体方法和可检查结果上,适合判断该方向的真实进展。

生物分子建模 · Independent Researcher

Feynman-Kac 引导可控蛋白设计

Feynman-Kac 引导可控蛋白设计把用引导扩散做可控蛋白设计落到具体方法和可检查结果上,适合判断该方向的真实进展。

世界模型 · Independent Researcher

Function2Scene:按功能生成室内三维布局

Function2Scene:按功能生成室内三维布局把功能驱动三维场景布局变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · Independent Researcher

K-BrowseComp:韩语网页智能体基准

K-BrowseComp:韩语网页智能体基准把韩语语境网页浏览智能体变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

语言模型 · Independent Researcher

WASH:平均 3 个大模型就能洗掉文本水印

把 3 个独立大模型的输出分布做平均,水印检测 z 分数从 5-304 直接掉到 2 以下,WASH 还给出了 O(1/根号N) 的误差证明。

语音合成 · Independent Researcher

长语音生成的综合基准论文详细解读

长语音生成的综合基准把长语音生成变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · Independent Researcher

搜索智能体何时该屏蔽旧观察论文详细解读

搜索智能体何时该屏蔽旧观察把搜索智能体上下文管理变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

脑解码 · Independent Researcher

MinD-Vis:用扩散模型解码大脑视觉

MinD-Vis:用扩散模型解码大脑视觉把基于 fMRI 的图像重建落到具体方法和可检查结果上,适合判断该方向的真实进展。

定理证明 · Independent Researcher

MiniF2F:形式化奥赛数学基准

MiniF2F:形式化奥赛数学基准把形式化奥赛级数学评测落到具体方法和可检查结果上,适合判断该方向的真实进展。

语音合成 · Independent Researcher

MMAE:大规模音频编辑基准论文详细解读

MMAE:大规模音频编辑基准把音频编辑评测变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

生物分子建模 · Independent Researcher

ProGen2:蛋白质语言模型设计蛋白

ProGen2:蛋白质语言模型设计蛋白把蛋白质序列建模与设计落到具体方法和可检查结果上,适合判断该方向的真实进展。

扩散语言模型 · Independent Researcher

SEDD:用概率比率做离散扩散语言模型

SEDD:用概率比率做离散扩散语言模型把离散扩散语言建模落到具体方法和可检查结果上,适合判断该方向的真实进展。

文本嵌入 · Independent Researcher

Sentence-BERT:孪生 BERT 句向量

Sentence-BERT:孪生 BERT 句向量把用于语义相似度的句向量落到具体方法和可检查结果上,适合判断该方向的真实进展。

AI 智能体 · Independent Researcher

SoCRATES:主动式 LLM 调解评测

SoCRATES:主动式 LLM 调解评测把主动调解智能体变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · Independent Researcher

SpatialWorld:交互式空间推理智能体

SpatialWorld:交互式空间推理智能体把交互式空间推理变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · Independent Researcher

TASTE:从工具序列生成智能体难题

TASTE:从工具序列生成智能体难题把工具调用基准生成变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

小语言模型 · Independent Researcher

TinyLlama:开放小语言模型配方

TinyLlama:开放小语言模型配方把开放小语言模型训练落到具体方法和可检查结果上,适合判断该方向的真实进展。

AI 智能体 · Independent Researcher

TIDE:模板引导的主动发现问题

TIDE:模板引导的主动发现问题把主动式问题发现变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · Independent Researcher

ToolMaze:工具失败后的智能体重规划

ToolMaze:工具失败后的智能体重规划把工具失败后的动态重规划变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

机器人 · Independent Researcher

TVRBench:模型能否移动到目标视角

TVRBench:模型能否移动到目标视角把主动三维视角复现变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

图像分割 · Independent Researcher

U-Net:生物医学图像分割基线

U-Net:生物医学图像分割基线把生物医学图像分割落到具体方法和可检查结果上,适合判断该方向的真实进展。

多模态模型 · Independent Researcher

VideoKR:知识密集型视频理解

VideoKR:知识密集型视频理解把视频理解中的知识与推理变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

世界模型 · University of Macau

PF-OPSD：多模态大模型该何时信任世界模型的视频

PF-OPSD 训练 Qwen3.5-9B 学会判断何时调用视频世界模型、如何核验生成画面，并在两个新基准上把准确率分别提升 10.6 和 10.9 个百分点。

扩散模型 · Independent Researcher

Mean Mode Screaming:稳住千层扩散 Transformer

极深 DiT 会塌缩进作者称为 Mean Mode Screaming 的均值主导态。把残差拆成均值与去均值两条路径即可修复,训出稳定的 1000 层 DiT,FID 2.77。