RMSNorm¶

类 torch.nn.RMSNorm(normalized_shape, eps=None, elementwise_affine=True, device=None, dtype=None)[源文件][源文件]¶

在输入的小批量数据上应用均方根层归一化 (Root Mean Square Layer Normalization)。

此层实现了论文 Root Mean Square Layer Normalization 中描述的操作。

y_i = \frac{x_i}{\mathrm{RMS}(x)} * \gamma_i, \quad \text{where} \quad \text{RMS}(x) = \sqrt{\epsilon + \frac{1}{n} \sum_{i=1}^{n} x_i^2}

均方根（RMS）是在最后 D 个维度上计算的，其中 D 是 normalized_shape 的维度。例如，如果 normalized_shape 是 (3, 5)（一个二维形状），则均方根是在输入的最后 2 个维度上计算的。

参数

normalized_shape (int 或 list 或 torch.Size) –
输入形状，对应预期的输入尺寸

$[* \times \text{normalized\_shape}[0] \times \text{normalized\_shape}[1] \times \ldots \times \text{normalized\_shape}[-1]]$
如果使用单个整数，则将其视为单元素列表，此模块将对最后一个维度进行归一化，该维度预计具有该特定尺寸。
eps (可选[float]) – 添加到分母上的值，用于数值稳定性。默认值：torch.finfo(x.dtype).eps()
elementwise_affine (bool) – 一个布尔值，当设置为 True 时，此模块具有可学习的逐元素仿射参数，初始化为全一（用于权重）。默认值：True。

形状

示例

>>> rms_norm = nn.RMSNorm([2, 3])
>>> input = torch.randn(2, 2, 3)
>>> rms_norm(input)

关于此模块的额外信息。

执行前向传播。

根据在 __init__ 中使用的初始化方式重置参数。

文档