快捷方式

RotaryPositionalEmbeddings

class torchtune.modules.RotaryPositionalEmbeddings(dim: int, max_seq_len: int = 4096, base: int = 10000)[源代码]

此类实现了 https://arxiv.org/abs/2104.09864 中提出的 Rotary Positional Embeddings (RoPE)。

参考实现(用于正确性验证)可以在这里找到: https://github.com/meta-llama/llama/blob/main/llama/model.py#L80

在此实现中,我们缓存每个位置的嵌入,最多 max_seq_len,方法是在初始化期间计算它。

参数:
  • dim (int) – 嵌入维度。这通常设置为注意力模块中每个头的维度,计算方式为 embed_dim // num_heads

  • max_seq_len (int) – 模型预期的最大序列长度,如果超过,将重新计算缓存的频率

  • base (int) – 用于计算旋转角度的几何级数的基础

forward(x: Tensor, *, input_pos: Optional[Tensor] = None) Tensor[源代码]
参数:
  • x (torch.Tensor) – 形状为 [b, s, n_h, h_d] 的输入张量

  • input_pos (Optional[torch.Tensor]) – 可选张量,其中包含每个 token 的位置 ID。在训练期间,这用于指示每个 token 相对于其打包样本的位置,形状为 [b, s]。在推理期间,这指示当前 token 的位置。如果为 None,则假定 token 的索引是其位置 ID。默认为 None。

返回:

形状为 [b, s, n_h, h_d] 的输出张量

返回类型:

torch.Tensor

用于张量形状的符号
  • b: 批大小

  • s: 序列长度

  • n_h: 头数

  • h_d: 头维度

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并获得解答

查看资源