示例¶
在本节中,您将找到跨不同研究领域的各种流行数据集的数据加载实现(使用 DataPipe)。一些示例由 PyTorch 团队实现,实现代码在 PyTorch 库中维护。其他示例由 PyTorch 社区成员创建。
音频¶
LibriSpeech¶
LibriSpeech 数据集 是一个包含大约 1000 小时 16kHz 阅读英语语音的语料库。以下是用于加载数据的 LibriSpeech 的 DataPipe 实现。
文本¶
亚马逊评论极性¶
亚马逊评论数据集包含来自亚马逊的评论。其目的是训练文本/情感分类模型。在我们的 DataPipe 数据集实现 中,我们用详细的注释描述了每个步骤,以帮助您了解每个 DataPipe 的作用。我们建议您看一下这个例子。
IMDB¶
这是一个用于二元情感分类的 大型电影评论数据集,包含 25,000 条高度极化的电影评论用于训练,25,000 条用于测试。以下是 用于加载数据的 DataPipe 实现。
SQuAD¶
SQuAD(斯坦福问答数据集) 是一个用于阅读理解的数据集。它由众包工作者在一组维基百科文章上提出的问题列表组成。以下是 版本 1.1 和 版本 2.0 的 DataPipe 实现。
TorchText 中的其他数据集¶
在另一个 PyTorch 领域库 TorchText 中,您会发现 NLP 领域中一些最流行的数据集,这些数据集使用 DataPipe 实现为可加载数据集。您可以在 此处 找到所有这些 NLP 数据集。
视觉¶
Caltech 101¶
Caltech 101 数据集 包含属于 101 个类别的对象的图片。以下是 Caltech 101 的 DataPipe 实现。
Caltech 256¶
Caltech 256 数据集 包含来自 256 个类别的 30607 张图像。以下是 Caltech 256 的 DataPipe 实现。
CamVid - 语义分割(社区示例)¶
剑桥驾驶标记视频数据库 (CamVid) 是一个包含具有对象类语义标签的视频集合,并附带元数据。该数据库提供地面真实标签,将每个像素与 32 个语义类之一相关联。以下是我们的社区创建的 CamVid 的 DataPipe 实现。
laion2B-en-joined¶
laion2B-en-joined 数据集 是 LAION-5B 数据集 的一个子集,包含英文标题、指向图像的 URL 以及其他元数据。它包含大约 23.2 亿个条目。目前(2023 年 2 月),大约 86% 的 URL 仍然指向有效的图像。以下是 laion2B-en-joined 的 DataPipe 实现,它过滤掉不安全的图像和带有水印的图像,并从 URL 加载图像。
TorchVision 中的其他数据集¶
在另一个 PyTorch 领域库 TorchVision 中,您会发现计算机视觉领域中一些最流行的数据集,这些数据集使用 DataPipe 实现为可加载数据集。您可以在 此处 找到所有这些视觉数据集。
请注意,这些实现目前处于原型阶段,但它们将在未来几个月内得到完全支持。尽管如此,它们展示了 DataPipe 可用于数据加载的不同方式。
推荐系统¶
Criteo 1TB 点击日志¶
Criteo 数据集 包含数百万个展示广告的特征值和点击反馈。它旨在对点击率 (CTR) 预测算法进行基准测试。您可以在 TorchRec 中找到使用 DataPipe 的数据集的原型阶段实现。
图形、网格和点云¶
TigerGraph(社区示例)¶
TigerGraph 是一个用于 AI 和 ML 的可扩展图形数据平台。您可以在 此处 找到使用 TorchData 中的 DataPipe 和存储在 TigerGraph 数据库中的数据的图形特征工程和机器学习的实现,其中包括计算数据库内 PageRank 分数、使用多个 DataPipe 拉取图形数据和特征,以及使用 PyTorch 中的图形特征训练神经网络。
MoleculeNet(社区示例)¶
MoleculeNet 是一个专门为测试分子性质的机器学习方法而设计的基准测试。您可以在 此处 找到使用 PyTorch Geometric 中的 DataPipe 实现的 HIV 数据集,其中包括将 SMILES 字符串转换为分子图表示。
Princeton ModelNet(社区示例)¶
Princeton ModelNet 项目提供了一个全面且干净的 3D CAD 模型集合,涵盖各种对象类型。您可以在 此处 找到使用 PyTorch Geometric 中的 DataPipe 实现的 ModelNet10 数据集,其中包括通过 meshio 读取网格,以及通过 PyG 的函数转换 从对象表面采样点和动态图生成。
时间序列¶
用于时间序列滚动窗口的自定义 DataPipe(社区示例)¶
为时间序列预测任务实现滚动窗口自定义 DataPipe。以下是 滚动窗口的 DataPipe 实现。
使用 AIStore¶
Caltech 256 和 Microsoft COCO(社区示例)¶
使用 AISFileLister 和 AISFileLoader 从 AIS 存储桶(非基于第三方后端的存储桶)和远程云存储桶(基于第三方后端的云存储桶)中列出和加载数据。
这里有一个使用 AISIO DataPipe 的示例,用于Caltech-256 对象类别数据集(包含 256 个对象类别,共 30607 张图像,存储在 AIS 存储桶中)和Microsoft COCO 数据集(包含 33 万张图像,涵盖 80 个对象类别,超过 20 万个标签,超过 150 万个对象实例,存储在 Google Cloud 上)。