今天,我们宣布了与 PyTorch 1.8 版本一同发布的多个 PyTorch 库的更新。这些更新包括领域库的新版本,如 TorchVision、TorchText 和 TorchAudio,以及 TorchCSPRNG 的新版本。这些版本包含了许多新特性和改进,与 PyTorch 1.8 版本一起,为 PyTorch 社区提供了广泛的更新,供其构建和利用。
一些亮点包括
- TorchVision - 增加了对 PyTorch Mobile 的支持,包括 Detectron2Go (D2Go)、训练期间的数据自动增强、即时类型转换和 AMP 自动混合精度。
- TorchAudio - 对 I/O 进行了重大改进,包括默认使用 sox_io 后端和支持文件类对象。增加了 Kaldi 音高特征,并支持基于 CMake 的构建,使 TorchAudio 能更好地支持非 Python 环境。
- TorchText - 更新了数据集加载 API,使其与标准的 PyTorch 数据加载工具兼容。
- TorchCSPRNG - PyTorch 的加密安全伪随机数生成器支持现已稳定,并提供了 AES128 ECB/CTR 的新 API 和 Windows 上的 CUDA 支持。
请注意,从 PyTorch 1.6 开始,特性被分为稳定 (Stable)、Beta 和原型 (Prototype) 三类。原型特性不包含在二进制分发中,而是通过源码构建、使用 nightly 版本或通过编译器标志提供。您可以在此处查看详细公告。
TorchVision 0.9.0
[稳定] TorchVision Mobile:算子、Android 二进制文件和教程
我们很高兴地宣布 PyTorch 领域库首次支持设备端及提供二进制文件。我们看到,在研究和工业领域,对设备端视觉支持有着显著需求,以便实现低延迟、保护隐私和资源高效的移动视觉体验。您可以遵循此新教程,使用 TorchVision 算子、D2Go 或您自己的自定义算子和模型构建您自己的 Android 对象检测应用。

[稳定] 用于分类、对象检测和语义分割的新移动模型
我们添加了对 MobileNetV3 架构的支持,并提供了用于分类、对象检测和分割的预训练权重。这些模型很容易上手,只需像导入和加载任何 torchvision
模型一样即可。
import torch
import torchvision
# Classification
x = torch.rand(1, 3, 224, 224)
m_classifier = torchvision.models.mobilenet_v3_large(pretrained=True)
m_classifier.eval()
predictions = m_classifier(x)
# Quantized Classification
x = torch.rand(1, 3, 224, 224)
m_classifier = torchvision.models.quantization.mobilenet_v3_large(pretrained=True)
m_classifier.eval()
predictions = m_classifier(x)
# Object Detection: Highly Accurate High Resolution Mobile Model
x = [torch.rand(3, 300, 400), torch.rand(3, 500, 400)]
m_detector = torchvision.models.detection.fasterrcnn_mobilenet_v3_large_fpn(pretrained=True)
m_detector.eval()
predictions = m_detector(x)
# Semantic Segmentation: Highly Accurate Mobile Model
x = torch.rand(1, 3, 520, 520)
m_segmenter = torchvision.models.segmentation.deeplabv3_mobilenet_v3_large(pretrained=True)
m_segmenter.eval()
predictions = m_segmenter(x)
这些模型在资源效率、速度和准确性方面与 TorchVision 的现有模型极具竞争力。有关详细的性能指标,请参阅我们的发行说明。
[稳定] AutoAugment
AutoAugment 是一种常用的数据增强技术,可以提高场景分类模型的准确性。尽管数据增强策略与其训练数据集直接相关,但经验研究表明,将 ImageNet 策略应用于其他数据集时也能带来显著改进。我们实现了在以下数据集上学习到的 3 种策略:ImageNet、CIFA10 和 SVHN。这些策略可以单独使用,也可以与现有转换混合搭配使用。
from torchvision import transforms
t = transforms.AutoAugment()
transformed = t(image)
transform=transforms.Compose([
transforms.Resize(256),
transforms.AutoAugment(),
transforms.ToTensor()])
TorchVision 的其他新特性
- [稳定] io.image 包中的所有读取和解码方法现在支持
- PNG 解码期间的调色板、灰度 Alpha 和 RBG Alpha 图像类型
- 读取时图像类型之间的即时转换
- [稳定] WiderFace 数据集
- [稳定] 通过在 RPN 上引入分数阈值,提高了 FasterRCNN 的速度和准确性
- [稳定] DeformConv2D 的调制输入
- [稳定] 将音频写入视频文件的选项
- [稳定] 绘制边界框的实用工具
- [Beta] 所有算子中的自动混合精度支持 在此处查找完整的 TorchVision 发行说明。
TorchAudio 0.8.0
I/O 改进
我们在前一个版本的基础上继续改进 TorchAudio 的 I/O 支持,包括
- [稳定] 将默认后端更改为“sox_io”(适用于 Linux/macOS),并更新“soundfile”后端的接口以与“sox_io”对齐。遗留后端和接口仍然可访问,但强烈不建议使用它们。
- [稳定] 在“sox_io”后端、“soundfile”后端和 sox_effects 中支持文件类对象。
- [稳定] 保存时更改格式、编码和每样本比特数的新选项。
- [稳定] 为“sox_io”后端增加了 GSM、HTK、AMB、AMR-NB 和 AMR-WB 格式支持。
- [Beta] 新增
functional.apply_codec
函数,可以通过在内存中应用“sox_io”后端支持的音频编解码器来降级音频数据。以下是此版本中包含的一些特性示例
# Load audio over HTTP
with requests.get(URL, stream=True) as response:
waveform, sample_rate = torchaudio.load(response.raw)
# Saving to Bytes buffer as 32-bit floating-point PCM
buffer_ = io.BytesIO()
torchaudio.save(
buffer_, waveform, sample_rate,
format="wav", encoding="PCM_S", bits_per_sample=16)
# Apply effects while loading audio from S3
client = boto3.client('s3')
response = client.get_object(Bucket=S3_BUCKET, Key=S3_KEY)
waveform, sample_rate = torchaudio.sox_effects.apply_effect_file(
response['Body'],
[["lowpass", "-1", "300"], ["rate", "8000"]])
# Apply GSM codec to Tensor
encoded = torchaudio.functional.apply_codec(
waveform, sample_rate, format="gsm")
查看经过改进的音频预处理教程,使用 TorchAudio 进行音频操作。
[稳定] 切换到基于 CMake 的构建
在 TorchAudio 的先前版本中,它利用 CMake 构建第三方依赖。从 0.8.0 版本开始,TorchaAudio 使用 CMake 构建其 C++ 扩展。这将为将 TorchAudio 集成到非 Python 环境(如 C++ 应用和移动端)打开大门。我们将继续致力于添加示例应用和移动端集成。
[Beta] 改进及新增的音频转换
我们在此版本中添加了两个广泛请求的算子:SpectralCentroid 转换和 Kaldi 音高特征提取(详细信息见“A pitch extraction algorithm tuned for automatic speech recognition”)。我们还为 Mel 转换暴露了归一化方法,并为 Spectrogram 添加了额外的 STFT 参数。我们希望我们的社区继续为核心音频处理特性(如这些)提出特性请求!
社区贡献
在此版本中,我们收到了比以往任何时候都多的来自开源社区的贡献,其中包括一些全新的特性。我们衷心感谢社区。请查看新添加的CONTRIBUTING.md 文件,了解贡献代码的方式,并且请记住,报告 Bug 和请求特性同样有价值。我们将继续发布标有“help-wanted”和“contributions-welcome”的明确范围的工作项作为议题,供任何想贡献代码的人参考,并且乐意指导新贡献者完成贡献流程。
在此处查找完整的 TorchAudio 发行说明。
TorchText 0.9.0
[Beta] 数据集 API 更新
在此版本中,我们正在更新 TorchText 的数据集 API,使其与 PyTorch 数据工具(如 DataLoader)兼容,并弃用 TorchText 的自定义数据抽象(如 Field
)。更新后的数据集是简单地逐字符串迭代数据的迭代器。有关从遗留抽象迁移到使用现代 PyTorch 数据工具的指导,请参阅我们的迁移指南。
作为此工作的一部分,下面列出的文本数据集已更新。有关如何使用这些数据集的示例,请参阅我们的端到端文本分类教程。
- 语言建模: WikiText2, WikiText103, PennTreebank, EnWik9
- 文本分类: AG_NEWS, SogouNews, DBpedia, YelpReviewPolarity, YelpReviewFull, YahooAnswers, AmazonReviewPolarity, AmazonReviewFull, IMDB
- 序列标注: UDPOS, CoNLL2000Chunking
- 翻译: IWSLT2016, IWSLT2017
- 问答: SQuAD1, SQuAD2
在此处查找完整的 TorchText 发行说明。
[稳定] TorchCSPRNG 0.2.0
我们于 2020 年 8 月发布了 TorchCSPRNG,这是一个 PyTorch C++/CUDA 扩展,为 PyTorch 提供加密安全伪随机数生成器。今天,我们发布了 0.2.0 版本,并将其指定为稳定库。此版本包含用于 AES128 ECB/CTR 加密/解密的新 API,以及对 CUDA 11 和 Windows CUDA 的支持。
在此处查找完整的 TorchCSPRNG 发行说明。
感谢阅读,如果您对这些更新感到兴奋并希望参与 PyTorch 的未来,我们鼓励您加入讨论论坛并提交 GitHub 问题。
祝好!
PyTorch 团队