padded_collate_dpo¶

torchtune.data.padded_collate_dpo(batch: List[Dict[str, List[int]]], padding_idx: int = 0, ignore_idx: int = - 100) → Tuple[Tensor, Tensor][源]¶

为直接偏好优化 (DPO) 填充一批序列。

此函数接受一批序列，其中每个序列表示为一个包含多个键值对的字典。每个键对应于不同的序列组成部分，例如 input_ids 或 labels。

参数：

batch (List[Dict[str, List[int]]]) – 字典列表，其中每个字典代表一个具有多个组成部分的序列，需要包含 ‘chosen_input_ids’、‘chosen_labels’、‘rejected_input_ids’ 和 ‘rejected_labels’。
padding_idx (int) – input ids 的填充索引。默认为 0。
ignore_idx (int) – labels 的填充索引。默认为 -100。

返回值：

一个包含拼接并填充后的 input ids 和 labels 的元组。

返回类型：

Tuple[torch.Tensor, torch.Tensor]

示例

>>> batch = [
>>>    {'chosen_input_ids': [1, 2, 3], 'rejected_input_ids': [4, 5],
>>>      'chosen_labels': [6, 7, 8], 'rejected_labels': [9, 10]},
>>>    {'chosen_input_ids': [11, 12], 'rejected_input_ids': [13, 14, 15],
>>>      'chosen_labels': [16, 17], 'rejected_labels': [18, 19, 20]},
>>> ]
>>> padded_collate_dpo(batch)
>>> (tensor([[ 1,  2,  3],
>>>          [11, 12,  0],
>>>          [ 4,  5,  0],
>>>          [13, 14, 15]]),
>>>  tensor([[ 6,  7,  8],
>>>          [16, 17, -100],
>>>          [ 9, 10, -100],
>>>          [18, 19, 20]]))

padded_collate_dpo¶

文档

教程

资源