对齐 · Seoul National University
人格问卷为何测不准大模型的真实行为
给大模型做大五人格或价值观问卷,几乎预测不了它在真实提问中的表现:跨方法一致性仅 Spearman 0.31 与 0.26,而同类问卷内部高达 0.74-0.77。
机构
韩国顶尖研究型大学,在自然语言处理、数据科学与 AI 评测方向有活跃团队。
对齐 · Seoul National University
给大模型做大五人格或价值观问卷,几乎预测不了它在真实提问中的表现:跨方法一致性仅 Spearman 0.31 与 0.26,而同类问卷内部高达 0.74-0.77。