torchtune.rlhf.loss.SimPOLoss¶

torchtune.rlhf.loss.SimPOLoss = <function SimPOLoss>[源代码]¶

使用无参考奖励的简单偏好优化： https://arxiv.org/abs/2405.14734。来自论文的直觉

SimPO 的有效性归因于一个关键设计：使用序列的平均对数概率作为隐式奖励。此外，我们向 Bradley-Terry 目标引入了目标奖励边距，以鼓励获胜响应和失败响应之间有更大的边距，从而进一步增强算法的性能。

SimPO 几乎与 DPO 相同，但使用平均对数概率来消除对参考模型的需求，从而在训练期间正则化策略。它还使用目标奖励边距来引导策略朝着更好的响应发展。这与 IPOLoss 中的直觉类似，但我们不是针对参考策略和策略模型之间的边距进行优化，而是针对选择的响应和拒绝的响应之间的边距进行优化。

参数:

类型:

SimPO

文档