强化学习 · University of Edinburgh
SCOPE:让大模型在开放任务上自博弈进化
SCOPE 让出题的 Challenger 与检索作答的 Solver 互相进化,靠一份冻结的自评委打分,八个开放基准最高提升 +10.4 分,且不用任何人工标注的提示。
机构
苏格兰的顶尖公立研究型大学,信息学院享誉国际,在自然语言处理与机器学习领域研究突出。
强化学习 · University of Edinburgh
SCOPE 让出题的 Challenger 与检索作答的 Solver 互相进化,靠一份冻结的自评委打分,八个开放基准最高提升 +10.4 分,且不用任何人工标注的提示。