RSOLoss¶

class torchtune.rlhf.loss.RSOLoss(gamma: float = 0.1)[源代码]¶

统计拒绝采样优化 (RSO) 或“合页”损失模块：https://arxiv.org/abs/2309.06657。论文中的直觉

DPO 是对人类偏好数据的逻辑回归，而 SLiC (https://arxiv.org/abs/2305.10425) 几乎等同于使用合页损失的支持向量机 (SVM)。[RSO] 作为 DPO 的 SVM 对应物，改进了 SLiC。

forward(policy_chosen_logps: Tensor, policy_rejected_logps: Tensor, reference_chosen_logps: Tensor, reference_rejected_logps: Tensor) → Tuple[Tensor, Tensor, Tensor][源代码]¶

计算一批策略和参考模型对数概率的 RSO 损失。

参数:

返回值:

包含三个张量的元组

返回类型:

Tuple[torch.Tensor, torch.Tensor, torch.Tensor]

文档