DPOLoss¶
- class torchtune.rlhf.loss.DPOLoss(beta: float = 0.1, label_smoothing: float = 0.0)[source]¶
直接偏好优化 (DPO) 损失模块:https://arxiv.org/abs/2305.18290 论文中的简述
直观地说,DPO 更新增加了偏好响应相对于非偏好响应的相对对数概率,但它融入了动态的、每个示例的重要性权重,从而防止了我们在朴素的概率比率目标中发现的模型退化。
基于 HF 的 TRL 库中的实现:https://github.com/huggingface/trl/blob/5d1deb1445828cfd0e947cb3a7925b1c03a283fc/trl/trainer/dpo_trainer.py#L844
DPO 保留了与 PPO (https://arxiv.org/abs/2009.01325) 的相似性,它优化策略(语言)模型以与人类偏好对齐,并使用基线参考(冻结的初始语言模型)来正则化损失函数,以防止过度拟合偏好数据集。它与 PPO 的不同之处在于,它使用标记的偏好数据直接优化策略模型,而不是使用额外的奖励模型来提供反馈。这显著简化了训练并减少了计算开销。
- 参数:
- forward(policy_chosen_logps: Tensor, policy_rejected_logps: Tensor, reference_chosen_logps: Tensor, reference_rejected_logps: Tensor) Tuple[Tensor, Tensor, Tensor] [source]¶
计算一批策略模型和参考模型对数概率的 DPO 损失。
- 参数:
policy_chosen_logps (torch.Tensor) – 策略模型对于选择的响应的对数概率。 形状:(batch_size)
policy_rejected_logps (torch.Tensor) – 策略模型对于拒绝的响应的对数概率。 形状:(batch_size)
reference_chosen_logps (torch.Tensor) – 参考模型对于选择的响应的对数概率。 形状:(batch_size)
reference_rejected_logps (torch.Tensor) – 参考模型对于拒绝的响应的对数概率。 形状:(batch_size)
- 返回:
- 一个包含三个张量的元组
losses:批次中每个示例的 DPO 损失。
chosen_rewards:选择的响应的奖励。
rejected_rewards:拒绝的响应的奖励。
- 返回类型:
Tuple[torch.Tensor, torch.Tensor, torch.Tensor]