-
论文标题:PROVER-VERIFIER GAMES IMPROVE LEGIBILITY OF LLM OUTPUTS
-
论文链接:https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf
问题:肖娜(Shawna)的父亲的年龄是肖娜的五倍。肖娜现在的年龄是阿莉娅(Aliya)的三倍。如果阿莉娅 3 岁,那么肖娜的父亲多少岁?
-
「验证者」训练:研究团队训练较弱的「验证者」模型,验证「证明者」给出的答案是否正确。
-
「证明者」训练:研究团队指示性能较强的「证明者」模型扮演「有用」或「狡猾」的戏份。
-
当「证明者」被设定为「有用」时,研究团队将奖励「验证者」打分高的正确答案。
-
当「证明者」被设定为「狡猾」时,研究团队反而奖励「验证者」打分高的错误答案。
-
一个仅在人类编写的推导上进行监督式微调的模型,虽然具有较高的可读性,但准确性较差。
-
当模型的优化目标仅为正确性,即只关注生成正确答案时,虽然能够达到高准确性,但生成的解决方案的可读性却较差。
-
OpenAI 提出的可检查博弈方法平衡了这两者,在保持高可读性的同时保持适度的准确性。
-
鲁棒验证者:即使解决方案具有误导性,仍能够有效区分正确和错误的解决方案。
-
有用的证明者:生成对人类来说易于理解的解决方案,从而减少人类评估者的错误。
-
狡猾证明者:产生微妙的、错误的解决方案,这些解决方案最初会混淆人类评估者,从而突出需要进一步改进的领域。
问题:肖娜(Shawna)的父亲的年龄是肖娜的五倍。肖娜现在的年龄是阿莉娅(Aliya)的三倍。如果阿莉娅 3 岁,那么肖娜的父亲多少岁?
本文源自「私域神器」,发布者:siyushenqi.com,转载请注明出处:https://www.siyushenqi.com/33964.html