摘要
随着 PyTorch 2.1 的发布,我们对当前的 PyTorch 库进行了一系列改进。这些更新展示了我们专注于跨所有领域开发通用且可扩展的 API,以便我们的社区更轻松地在 PyTorch 上构建生态系统项目。
除了 2.1 版本,我们还发布了一系列 PyTorch 领域库的 Beta 更新,包括 TorchAudio 和 TorchVision。请在下方查看最新的稳定版本和更新列表。
最新稳定库版本 | (完整列表)* | |
---|---|---|
TorchArrow 0.1.0 | TorchRec 0.5.0 | TorchVision 0.16 |
TorchAudio 2.1 | TorchServe 0.8.2 | TorchX 0.5.0 |
TorchData 0.7.0 | TorchText 0.16.0 | PyTorch on XLA Devices 1.14 |
*要查看以前的版本或(不稳定) nightly 版本,请点击左上方菜单中 “搜索文档” 上方的 “版本”。
TorchAudio
TorchAudio v2.1 引入了以下新功能和向后不兼容的更改
[Beta] 一个新的 API,用于应用滤波器、效果和编解码器
`torchaudio.io.AudioEffector` 可以以在线/离线方式将滤波器、效果和编码应用于波形。您可以将其用作一种增强形式。
请参阅 https://pytorch.ac.cn/audio/2.1/tutorials/effector_tutorial.html 以了解用法和示例。
[Beta] 用于强制对齐的工具
添加了用于强制对齐的新函数和预训练模型。`torchaudio.functional.forced_align` 从 emission 计算对齐,`torchaudio.pipelines.MMS_FA` 提供了对在 MMS: Scaling Speech Technology to 1000+ languages 项目中训练的多语言强制对齐模型的访问。
请参阅 https://pytorch.ac.cn/audio/2.1/tutorials/ctc_forced_alignment_api_tutorial.html 以了解 `forced_align` 函数的用法,以及 https://pytorch.ac.cn/audio/2.1/tutorials/forced_alignment_for_multilingual_data_tutorial.html 以了解如何使用 `MMS_FA` 对齐多种语言的文本记录。
[Beta] TorchAudio-Squim:用于无参考语音评估的模型
添加了来自论文 TorchAudio-Sequim: Reference-less Speech Quality and Intelligibility measures in TorchAudio 的模型架构和预训练模型。
您可以使用预训练模型 `torchaudio.pipelines.SQUIM_SUBJECTIVE` 和 `torchaudio.pipelines.SQUIM_OBJECTIVE`。它们可以估计各种语音质量和可懂度指标(例如 STOI、宽带 PESQ、Si-SDR 和 MOS)。这在评估语音生成模型(例如文本到语音 (TTS))的质量时很有帮助。
请参阅 https://pytorch.ac.cn/audio/2.1/tutorials/squim_tutorial.html 以了解详情。
[Beta] 基于 CUDA 的 CTC 解码器
`torchaudio.models.decoder.CUCTCDecoder` 在 CUDA 设备中执行 CTC 集束搜索。集束搜索速度很快。它消除了在执行自动语音识别时将数据从 CUDA 设备移动到 CPU 的需要。借助 PyTorch 的 CUDA 支持,现在可以在 CUDA 中执行整个语音识别管道。
请参阅 https://pytorch.ac.cn/audio/2.1/tutorials/asr_inference_with_cuda_ctc_decoder_tutorial.html 以了解详情。
[Prototype] 用于 AI 音乐生成的实用程序
我们正在努力添加与音乐 AI 相关的实用程序。自上次发布以来,以下 API 已添加到原型中。
请参阅各自的文档以了解用法。
- torchaudio.prototype.chroma_filterbank
- torchaudio.prototype.transforms.ChromaScale
- torchaudio.prototype.transforms.ChromaSpectrogram
- torchaudio.prototype.pipelines.VGGISH
用于训练模型的新配方
添加了用于视听 ASR、多通道 DNN 波束成形和 TCPGen 上下文偏置的配方。
请参阅配方
- https://github.com/pytorch/audio/tree/release/2.1/examples/avsr
- https://github.com/pytorch/audio/tree/release/2.1/examples/dnn_beamformer
- https://github.com/pytorch/audio/tree/release/2.1/examples/asr/librispeech_conformer_rnnt_biasing
更新 FFmpeg 支持
支持的 FFmpeg 库的版本已更新。TorchAudio v2.1 可与 FFmpeg 6、5 和 4.4 配合使用。已放弃对 4.3、4.2 和 4.1 的支持。
请参阅 https://pytorch.ac.cn/audio/2.1/installation.html#optional-dependencies 以了解新的 FFmpeg 集成机制的详细信息。
更新 libsox 集成
TorchAudio 现在依赖于与 torchaudio 分开安装的 libsox。Sox I/O 后端不再支持类文件对象。(FFmpeg 后端和 soundfile 支持此功能。)
请参阅 https://pytorch.ac.cn/audio/2.1/installation.html#optional-dependencies 以了解详情。
TorchRL
我们的 RLHF 组件使您能够轻松构建 RLHF 训练循环,而无需太多 RL 知识。TensorDict 支持数据集(例如,HF 数据集)和 RL 模型之间的轻松交互。我们提供的新算法为离线 RL 训练提供了广泛的解决方案,从而提高了数据效率。
通过 RoboHive 和 IsaacGym,TorchRL 现在提供了与硬件(机器人)的内置接口,将大规模训练与设备上的策略部署联系起来。借助 SMAC、VMAS 和 PettingZoo 以及相关的面向 MARL 的损失,TorchRL 现在完全能够在多智能体环境中训练复杂的策略。
新算法
- [BETA] 我们集成了部分 RLHF 组件和示例:我们为 RL 框架中的数据格式化、奖励模型设计、实现高效学习的特定转换(例如,KL 校正)和训练脚本提供了构建块。
- [Stable] 新算法包括 Decision transformers、CQL、多智能体损失(如 MAPPO 和 QMixer)。新功能 - [Stable] 新转换,例如 Visual Cortex 1 (VC1),一种用于 RL 的基础模型。
- 我们扩大了 TorchRL 涵盖的库的范围:
- [Beta] IsaacGym,一个强大的基于 GPU 的模拟器,允许 NVIDIA 交互和渲染数千个向量化环境。
- [Stable] PettingZoo,Farama 基金会的多智能体库。
- [Stable] SMAC-v2,新的星际争霸多智能体模拟器
- [Stable] RoboHive,使用 MuJoCo 物理引擎模拟的环境/任务集合。
性能改进
我们通过重构和集成 SB3 和 Gym 异步环境执行来提供更快的数据收集。我们还加快了价值函数的执行速度。
TorchRec
[Prototype] 零碰撞/托管碰撞嵌入包
推荐系统中常见的约束是稀疏 ID 输入范围大于模型可以为给定参数大小学习的嵌入数量。 为了解决这个问题,传统的解决方案是将稀疏 ID 哈希到与嵌入表相同的大小范围。这最终会导致哈希冲突,多个稀疏 ID 共享相同的嵌入空间。我们开发了一种高性能的替代算法,该算法试图通过跟踪 N 个最常见的稀疏 ID 并确保它们具有唯一的嵌入表示来解决此问题。该模块在此处定义,示例可在此处找到。
[Prototype] UVM 缓存 - 预取训练管道
对于设备内存不足以容纳整个嵌入表的表,通常采用缓存架构,其中部分嵌入表缓存在设备上,而完整的嵌入表位于主机内存(通常是 DDR SDRAM)中。然而,在实践中,缓存未命中很常见,并且由于访问主机内存的相对高延迟而损害性能。基于 TorchRec 现有的数据管道,我们开发了一种新的预取训练管道,通过从主机内存中预取即将到来的批次的相关嵌入来避免这些缓存未命中,从而有效地消除前向路径中的缓存未命中。
TorchVision
转换和增强
显著加速
`torchvision.transforms.v2` 中的新转换现在比以前快 10%-40%!这主要归功于对 v2.Resize()
进行了 2 倍至 4 倍的改进,现在 v2.Resize()
支持 Bilinear 和 Bicubic 模式的本机 uint8
张量。输出结果现在也更接近 PIL 的结果!查看我们的性能建议以了解更多信息。
此外,torchvision
现在附带 libjpeg-turbo
而不是 libjpeg
,这应该会显着加速 jpeg 解码实用程序(read_image
, decode_jpeg
),并避免与 PIL 的兼容性问题。
CutMix 和 MixUp
期待已久的 CutMix
和 MixUp
增强功能现已推出!查看我们的教程以了解如何使用它们。
迈向稳定的 V2 转换
在之前的 0.15 版本中,我们 BETA 发布了 torchvision.transforms.v2
中的一组新转换,原生支持分割、检测或视频等任务。我们现在已经稳定了这些转换的设计决策,并在速度、可用性、新转换支持等方面进行了进一步改进。
出于谨慎考虑,我们将 torchvision.transforms.v2
和 torchvision.tv_tensors
命名空间保留为 BETA 版本,直到 0.17 版本,但我们预计未来不会出现破坏性的 API 更改。
无论您是 Torchvision 转换的新手,还是已经有经验,我们都鼓励您从 “v2 转换入门” 开始,以了解有关新 v2 转换的功能的更多信息。
浏览我们的主要文档,获取通用信息和性能提示。可用的变换和函数在API 参考中列出。更多信息和教程也可以在我们的示例库中找到,例如Transforms v2:端到端对象检测/分割示例 或 如何编写您自己的 v2 变换。
[BETA] MPS 支持
现在 nms
和 roi-align 内核(roi_align
、roi_pool
、ps_roi_align
、ps_roi_pool
)支持 MPS。感谢 Li-Huai (Allan) Lin 的贡献!
TorchX
调度器
-
[原型] Kubernetes MCAD 调度器:集成以便于在多集群应用调度器 (MCAD) 上轻松调度作业
-
AWS Batch
- 添加特权选项以允许在启用 EFA 的实例上以提升的网络权限运行容器
TorchX 跟踪器
- [原型] TorchX 跟踪器的 MLFlow 后端:除了基于 fsspec 的跟踪器之外,TorchX 可以使用 MLFlow 实例来跟踪元数据/实验
组件
- dist.spmd 组件以支持单进程多数据 (Single-Process-Multiple-Data) 风格的应用
工作区
- 在构建 Docker 工作区时,添加从 Dockerfile 访问镜像和工作区路径的能力
此版本包含许多其他错误修复。
要了解有关 Torchx 的更多信息,请访问 https://pytorch.ac.cn/torchx/latest/
TorchText 和 TorchData
截至 2023 年 9 月,我们已暂停 TorchText 和 TorchData 的积极开发,因为我们正在重新评估如何满足社区在此领域的需求。