torch.nn.utils.parametrizations.orthogonal¶

torch.nn.utils.parametrizations.orthogonal(module, name='weight', orthogonal_map=None, *, use_trivialization=True)[源代码][源代码]¶

将正交或酉参数化应用于矩阵或批量矩阵。

令 $\mathbb{K}$ 为 $\mathbb{R}$ 或 $\mathbb{C}$ ，参数化后的矩阵 $Q \in \mathbb{K}^{m \times n}$ 是正交的，定义如下：

\begin{align*} Q^{\text{H}}Q &= \mathrm{I}_n \mathrlap{\qquad \text{if }m \geq n}\\ QQ^{\text{H}} &= \mathrm{I}_m \mathrlap{\qquad \text{if }m < n} \end{align*}

其中 $Q^{\text{H}}$ 是当 $Q$ 是复数时为共轭转置，当 $Q$ 是实数时为转置， $\mathrm{I}_n$ 是 n 维单位矩阵。简而言之，当 $m \geq n$ 时， $Q$ 将具有正交列，否则具有正交行。

如果张量具有两个以上的维度，我们将其视为形状为 (…, m, n) 的批量矩阵。

矩阵 $Q$ 可以通过三个不同的 orthogonal_map（相对于原始张量）进行参数化：

"matrix_exp"/"cayley": 将 matrix_exp() $Q = \exp(A)$ 和 Cayley 映射 $Q = (\mathrm{I}_n + A/2)(\mathrm{I}_n - A/2)^{-1}$ 应用于一个斜对称矩阵 $A$ 以得到一个正交矩阵。
"householder": 计算 Householder 反射积 (householder_product())。

"matrix_exp"/"cayley" 通常使参数化后的权重比 "householder" 收敛更快，但对于非常“瘦”或非常“宽”的矩阵，它们的计算速度较慢。

如果 use_trivialization=True（默认值），则参数化实现了“动态平凡化框架”（Dynamic Trivialization Framework），其中一个额外的矩阵 $B \in \mathbb{K}^{n \times n}$ 存储在 module.parametrizations.weight[0].base 下。这有助于参数化层的收敛，但会消耗一些额外的内存。请参阅 Trivializations for Gradient-Based Optimization on Manifolds 。

$Q$ 的初始值：如果原始张量未被参数化且 use_trivialization=True（默认值），则 $Q$ 的初始值如果原始张量本身是正交的（或在复数情况下是酉的），则使用原始张量的值；否则，通过 QR 分解进行正交化（参见 torch.linalg.qr()）。当未参数化且 orthogonal_map="householder" 时，即使 use_trivialization=False，也会发生同样的情况。否则，初始值是应用于原始张量的所有已注册参数化组合的结果。

注意

此函数使用 register_parametrization() 中的参数化功能实现。

参数

module (nn.Module) – 要在其上注册参数化的模块。
name (str, 可选) – 要进行正交化的张量名称。默认值："weight"。
orthogonal_map (str, 可选) – 以下之一："matrix_exp"、"cayley"、"householder"。默认值：如果矩阵是方阵或复数，则为 "matrix_exp"；否则为 "householder"。
use_trivialization (bool, 可选) – 是否使用动态平凡化框架。默认值：True。

返回值

已将正交参数化注册到指定权重的原始模块

返回类型

Module

示例

>>> orth_linear = orthogonal(nn.Linear(20, 40))
>>> orth_linear
ParametrizedLinear(
in_features=20, out_features=40, bias=True
(parametrizations): ModuleDict(
    (weight): ParametrizationList(
    (0): _Orthogonal()
    )
)
)
>>> Q = orth_linear.weight
>>> torch.dist(Q.T @ Q, torch.eye(20))
tensor(4.9332e-07)

torch.nn.utils.parametrizations.orthogonal¶

文档

教程

资源