torch.linalg.svd¶
- torch.linalg.svd(A, full_matrices=True, *, driver=None, out=None)¶
计算矩阵的奇异值分解 (SVD)。
令 是 或 ,矩阵 的 完全 SVD,如果 k = min(m,n),定义为:
其中 , 在 为复数时是共轭转置,在 为实数时是转置。矩阵 、 (以及 ) 在实数情况下是正交矩阵,在复数情况下是酉矩阵。
当 m > n (或 m < n) 时,我们可以丢弃 U 的后 m - n 列 (或 V 的后 n - m 列),形成 简化 SVD:
其中 。在这种情况下, 和 也具有标准正交列。
支持 float、double、cfloat 和 cdouble dtypes 输入。也支持批次矩阵输入,如果
A
是一个批次矩阵,则输出具有相同的批次维度。返回的分解是一个命名元组 (U, S, Vh),分别对应于上面的 、 和 。
奇异值按降序返回。
参数
full_matrices
选择完全 (默认) SVD 或简化 SVD。driver
关键字参数可用于 CUDA,使用 cuSOLVER 后端选择计算 SVD 的算法。驱动的选择是在精度和速度之间权衡。如果
A
条件良好 (其条件数 不太大),或者您不介意一些精度损失。对于一般矩阵:‘gesvdj’ (Jacobi 方法)
如果
A
是高或宽矩阵 (m >> n 或 m << n):‘gesvda’ (近似方法)
如果
A
条件不好或精度要求高:‘gesvd’ (基于 QR)
默认情况下 (
driver
= None),我们调用 ‘gesvdj’,如果失败,则回退到 ‘gesvd’。与 numpy.linalg.svd 的差异
与 numpy.linalg.svd 不同,此函数始终返回一个包含三个张量的元组,并且不支持 compute_uv 参数。请使用
torch.linalg.svdvals()
(仅计算奇异值) 代替 compute_uv=False。
注意
当
full_matrices
= True 时,将忽略相对于 U[…, :, min(m, n):] 和 Vh[…, min(m, n):, :] 的梯度,因为这些向量可以是相应子空间的任意基。警告
返回的张量 U 和 V 不是唯一的,也不是关于
A
连续的。由于这种非唯一性,不同的硬件和软件可能会计算出不同的奇异向量。这种非唯一性是由于以下事实造成的:在实数情况下,将任意一对奇异向量 乘以 -1,或者在复数情况下乘以 会产生另外两个有效的矩阵奇异向量。因此,损失函数不应依赖于此 数量,因为它没有良好定义。当计算此函数的梯度时,对于复数输入会检查这一点。因此,当输入为复数且位于 CUDA 设备上时,此函数的梯度计算会将该设备与 CPU 同步。
警告
使用 U 或 Vh 计算的梯度只有在
A
没有重复奇异值时才是有限的。如果A
是矩形矩阵,则额外要求零也不能是其奇异值之一。此外,如果任意两个奇异值之间的距离接近于零,则梯度在数值上会不稳定,因为它依赖于通过计算 中的奇异值 。在矩形矩阵的情况下,当A
具有较小的奇异值时,梯度在数值上也会不稳定,因为它也依赖于计算 。另请参阅
torch.linalg.svdvals()
仅计算奇异值。与torch.linalg.svd()
不同,svdvals()
的梯度始终是数值稳定的。torch.linalg.eig()
计算矩阵的另一种谱分解。特征值分解仅适用于方阵。torch.linalg.eigh()
是一个 (更快地) 函数,用于计算 Hermitian 矩阵和对称矩阵的特征值分解。torch.linalg.qr()
是另一种 (快得多地) 分解,适用于一般矩阵。- 参数
- 关键字参数
- 返回
一个命名元组 (U, S, Vh),对应于上面提到的 、 和 。
S 即使当
A
为复数时,也始终是实值。它也将按降序排列。U 和 Vh 将与
A
具有相同的数据类型 (dtype)。左/右奇异向量分别由 U 的列和 Vh 的行给出。
示例
>>> A = torch.randn(5, 3) >>> U, S, Vh = torch.linalg.svd(A, full_matrices=False) >>> U.shape, S.shape, Vh.shape (torch.Size([5, 3]), torch.Size([3]), torch.Size([3, 3])) >>> torch.dist(A, U @ torch.diag(S) @ Vh) tensor(1.0486e-06) >>> U, S, Vh = torch.linalg.svd(A) >>> U.shape, S.shape, Vh.shape (torch.Size([5, 5]), torch.Size([3]), torch.Size([3, 3])) >>> torch.dist(A, U[:, :3] @ torch.diag(S) @ Vh) tensor(1.0486e-06) >>> A = torch.randn(7, 5, 3) >>> U, S, Vh = torch.linalg.svd(A, full_matrices=False) >>> torch.dist(A, U @ torch.diag_embed(S) @ Vh) tensor(3.0957e-06)