torchtune.rlhf.loss.SimPOLoss¶
- torchtune.rlhf.loss.SimPOLoss = <function SimPOLoss>[源代码]¶
使用无参考奖励的简单偏好优化: https://arxiv.org/abs/2405.14734。来自论文的直觉
SimPO 的有效性归因于一个关键设计:使用序列的平均对数概率作为隐式奖励。此外,我们向 Bradley-Terry 目标引入了目标奖励边距,以鼓励获胜响应和失败响应之间有更大的边距,从而进一步增强算法的性能。
SimPO 几乎与 DPO 相同,但使用平均对数概率来消除对参考模型的需求,从而在训练期间正则化策略。它还使用目标奖励边距来引导策略朝着更好的响应发展。这与
IPOLoss
中的直觉类似,但我们不是针对参考策略和策略模型之间的边距进行优化,而是针对选择的响应和拒绝的响应之间的边距进行优化。