Z-Reward:把推理内化进打分分布的图像奖励模型
Z-Reward 让图像奖励模型预测评分的整条分布而非标量。9B 学生只输出一个 token 就拿到 88.6% 准确率,下游 T2I 相比 SFT 净增 41.3% GSB。
机构
位于天津的公立研究型大学,其计算机视觉团队(VCIP)在图像生成、显著性与奖励建模方向活跃。
Z-Reward 让图像奖励模型预测评分的整条分布而非标量。9B 学生只输出一个 token 就拿到 88.6% 准确率,下游 T2I 相比 SFT 净增 41.3% GSB。