Transformer¶

class torch.nn.Transformer(d_model=512, nhead=8, num_encoder_layers=6, num_decoder_layers=6, dim_feedforward=2048, dropout=0.1, activation=<function relu>, custom_encoder=None, custom_decoder=None, layer_norm_eps=1e-05, batch_first=False, norm_first=False, bias=True, device=None, dtype=None)[源码][源码]¶

一个 Transformer 模型。

注意

有关 PyTorch 提供的用于构建您自己的 Transformer 层的性能构建模块的深入讨论，请参阅本教程。

用户可以根据需要修改属性。该架构基于论文Attention Is All You Need。

参数

d_model (int) – 编码器/解码器输入中预期的特征数量（默认值=512）。
nhead (int) – 多头注意力模型中的头数量（默认值=8）。
num_encoder_layers (int) – 编码器中的子编码器层数量（默认值=6）。
num_decoder_layers (int) – 解码器中的子解码器层数量（默认值=6）。
dim_feedforward (int) – 前馈网络模型的维度（默认值=2048）。
dropout (float) – dropout 值（默认值=0.1）。
activation (Union[str, Callable[[Tensor], Tensor]]) – 编码器/解码器中间层的激活函数，可以是字符串（“relu”或“gelu”）或一元可调用对象。默认值：relu
custom_encoder (Optional[Any]) – 自定义编码器（默认值=None）。
custom_decoder (Optional[Any]) – 自定义解码器（默认值=None）。
layer_norm_eps (float) – 层归一化组件中的 eps 值（默认值=1e-5）。
batch_first (bool) – 如果为 True，则输入和输出张量的形状为 (batch, seq, feature)。默认值：False (seq, batch, feature)。
norm_first (bool) – 如果为 True，编码器和解码器层将在其他注意力层和前馈操作之前执行 LayerNorm，否则在其后执行。默认值：False (之后)。
bias (bool) – 如果设置为 False，Linear 和 LayerNorm 层将不会学习加性偏置。默认值：True。

示例：

>>> transformer_model = nn.Transformer(nhead=16, num_encoder_layers=12)
>>> src = torch.rand((10, 32, 512))
>>> tgt = torch.rand((20, 32, 512))
>>> out = transformer_model(src, tgt)

注意：在 https://github.com/pytorch/examples/tree/master/word_language_model 中有一个将 nn.Transformer 模块应用于词语言模型的完整示例

forward(src, tgt, src_mask=None, tgt_mask=None, memory_mask=None, src_key_padding_mask=None, tgt_key_padding_mask=None, memory_key_padding_mask=None, src_is_causal=None, tgt_is_causal=None, memory_is_causal=False)[源码][源码]¶

接收并处理带掩码的源序列/目标序列。

注意

如果为任何 [src/tgt/memory]_mask 参数提供了布尔张量，则值为 True 的位置不允许参与注意力计算，这与 torch.nn.functional.scaled_dot_product_attention() 中 attn_mask 的定义相反。

参数

src (Tensor) – 编码器输入的序列（必需）。
tgt (Tensor) – 解码器输入的序列（必需）。
src_mask (Optional[Tensor]) – src 序列的加性掩码（可选）。
tgt_mask (Optional[Tensor]) – tgt 序列的加性掩码（可选）。
memory_mask (Optional[Tensor]) – 编码器输出的加性掩码（可选）。
src_key_padding_mask (Optional[Tensor]) – src 键的张量掩码，按批次划分（可选）。
tgt_key_padding_mask (Optional[Tensor]) – tgt 键的张量掩码，按批次划分（可选）。
memory_key_padding_mask (Optional[Tensor]) – memory 键的张量掩码，按批次划分（可选）。
src_is_causal (Optional[bool]) – 如果指定，则将因果掩码应用为 src_mask。默认值：None；尝试检测因果掩码。警告：src_is_causal 提供了一个提示，表明 src_mask 是因果掩码。提供不正确的提示可能导致执行错误，包括前向和后向兼容性问题。
tgt_is_causal (Optional[bool]) – 如果指定，则将因果掩码应用为 tgt_mask。默认值：None；尝试检测因果掩码。警告：tgt_is_causal 提供了一个提示，表明 tgt_mask 是因果掩码。提供不正确的提示可能导致执行错误，包括前向和后向兼容性问题。
memory_is_causal (bool) – 如果指定，则将因果掩码应用为 memory_mask。默认值：False。警告：memory_is_causal 提供了一个提示，表明 memory_mask 是因果掩码。提供不正确的提示可能导致执行错误，包括前向和后向兼容性问题。

返回类型

Tensor

形状

src: 对于非批次输入为 $(S, E)$ ，如果 batch_first=False 则为 $(S, N, E)$ ，如果 batch_first=True 则为 (N, S, E)。
tgt: 对于非批次输入为 $(T, E)$ ，如果 batch_first=False 则为 $(T, N, E)$ ，如果 batch_first=True 则为 (N, T, E)。
src_mask: $(S, S)$ 或 $(N\cdot\text{num\_heads}, S, S)$ 。
tgt_mask: $(T, T)$ 或 $(N\cdot\text{num\_heads}, T, T)$ 。
memory_mask: $(T, S)$ 。
src_key_padding_mask: 对于非批次输入为 $(S)$ ，否则为 $(N, S)$ 。
tgt_key_padding_mask: 对于非批次输入为 $(T)$ ，否则为 $(N, T)$ 。
memory_key_padding_mask: 对于非批次输入为 $(S)$ ，否则为 $(N, S)$ 。

注意：[src/tgt/memory]_mask 确保位置 $i$ 允许关注未被掩码的位置。如果提供了 BoolTensor，则值为 True 的位置不允许关注，而值为 False 的位置将保持不变。如果提供了 FloatTensor，则它将被添加到注意力权重中。[src/tgt/memory]_key_padding_mask 提供键中特定元素，这些元素将被注意力忽略。如果提供了 BoolTensor，则值为 True 的位置将被忽略，而值为 False 的位置将保持不变。

输出：未批处理输入为 $(T, E)$ ，如果 batch_first=False 则为 $(T, N, E)$ ，如果 batch_first=True 则为 (N, T, E)。

注意：由于 Transformer 模型中的多头注意力架构，Transformer 的输出序列长度与解码器的输入序列（即目标）长度相同。

其中 $S$ 是源序列长度， $T$ 是目标序列长度， $N$ 是批次大小， $E$ 是特征数量

示例

>>> output = transformer_model(src, tgt, src_mask=src_mask, tgt_mask=tgt_mask)

static generate_square_subsequent_mask(sz, device=None, dtype=None)[source][source]¶

为序列生成一个方形的因果掩码。

被掩码的位置填充 float('–inf')。未被掩码的位置填充 float(0.0)。

返回类型: Tensor

Transformer¶

文档

教程

资源