示例¶
在本节中,您将找到各种流行数据集(跨越不同的研究领域)的数据加载实现(使用 DataPipes)。一些示例由 PyTorch 团队实现,其实现代码在 PyTorch 库中维护。其他示例由 PyTorch 社区成员创建。
音频¶
LibriSpeech¶
LibriSpeech 数据集 是一个包含大约 1000 小时 16kHz 阅读英语语音的语料库。以下是 LibriSpeech 的 DataPipe 实现 来加载数据。
文本¶
亚马逊评论极性¶
亚马逊评论数据集包含来自亚马逊的评论。其目的是训练文本/情感分类模型。在我们的 DataPipe 数据集实现 中,我们用详细的注释描述了每个步骤,以帮助您理解每个 DataPipe 的作用。我们建议您查看此示例。
IMDB¶
这是一个用于二元情感分类的 大型电影评论数据集,包含 25,000 个高度极化的电影评论用于训练和 25,000 个用于测试。以下是 用于加载数据的 DataPipe 实现。
SQuAD¶
SQuAD(斯坦福问答数据集) 是一个阅读理解数据集。它由人群工作者对一组维基百科文章提出的问题列表组成。以下是 版本 1.1 和 版本 2.0 的 DataPipe 实现。
TorchText 中的其他数据集¶
在单独的 PyTorch 领域库 TorchText 中,您会发现 NLP 领域的一些最流行的数据集,它们使用 DataPipes 作为可加载数据集实现。您可以在此处找到所有这些 NLP 数据集。
视觉¶
Caltech 101¶
Caltech 101 数据集 包含属于 101 个类别的物体的图片。以下是 Caltech 101 的 DataPipe 实现。
Caltech 256¶
Caltech 256 数据集 包含来自 256 个类别的 30607 张图像。以下是 Caltech 256 的 DataPipe 实现。
CamVid - 语义分割(社区示例)¶
剑桥驾驶标记视频数据库 (CamVid) 是一个包含具有对象类别语义标签的视频的集合,并附带元数据。该数据库提供了将每个像素与 32 个语义类别之一相关联的真实标签。以下是我们的社区创建的 CamVid 的 DataPipe 实现。
laion2B-en-joined¶
laion2B-en-joined 数据集 是 LAION-5B 数据集 的一个子集,包含英文标题、指向图像的 URL 和其他元数据。它包含大约 23.2 亿个条目。目前(2023 年 2 月)大约 86% 的 URL 仍然指向有效的图像。以下是一个 laion2B-en-joined 的 DataPipe 实现,它过滤掉不安全的图像和带水印的图像,并从 URL 加载图像。
TorchVision 中的其他数据集¶
在单独的 PyTorch 领域库 TorchVision 中,您会发现计算机视觉领域的一些最流行的数据集,它们使用 DataPipes 作为可加载数据集实现。您可以在此处找到所有这些 视觉数据集。
请注意,这些实现目前处于原型阶段,但预计在未来几个月内将得到全面支持。尽管如此,它们还是展示了 DataPipes 可用于数据加载的不同方式。
推荐系统¶
Criteo 1TB 点击日志¶
Criteo 数据集 包含数百万个展示广告的特征值和点击反馈。它旨在为点击率 (CTR) 预测基准算法。您可以在 TorchRec 中使用 DataPipes 的数据集原型阶段实现 中找到它。
图、网格和点云¶
TigerGraph(社区示例)¶
TigerGraph 是一个用于 AI 和 ML 的可扩展图数据平台。您可以在此处找到 图特征工程和机器学习的实现,使用 TorchData 中的 DataPipes 和存储在 TigerGraph 数据库中的数据,包括在数据库中计算 PageRank 分数、使用多个 DataPipes 拉取图数据和特征,以及使用 PyTorch 中的图特征训练神经网络。
MoleculeNet(社区示例)¶
MoleculeNet 是一个专门为测试分子属性的机器学习方法而设计的基准。您可以在此处找到 PyTorch Geometric 中使用 DataPipes 的 HIV 数据集的实现,其中包括将 SMILES 字符串转换为分子图表示。
普林斯顿 ModelNet(社区示例)¶
普林斯顿 ModelNet 项目提供了各种物体类型的大量且干净的 3D CAD 模型集合。您可以在此处找到 PyTorch Geometric 中使用 DataPipes 的 ModelNet10 数据集的实现,其中包括通过 meshio 读取网格,以及通过 PyG 的函数转换 从物体表面采样点和动态图生成。
时间序列¶
时间序列滚动窗口的自定义 DataPipe(社区示例)¶
为时间序列预测任务实现滚动窗口自定义 DataPipe。以下是 滚动窗口的 DataPipe 实现。
使用 AIStore¶
Caltech 256 和 Microsoft COCO(社区示例)¶
使用 AISFileLister 和 AISFileLoader 列出和加载来自 AIS 存储桶(非第三方后端存储桶)和远程云存储桶(第三方后端云存储桶)的数据。
这里有一个使用 AISIO DataPipe 的示例,用于包含 256 个物体类别和总共 30607 张图像(存储在 AIS 存储桶中)的Caltech-256 物体类别数据集,以及存储在 Google Cloud 上的Microsoft COCO 数据集,该数据集包含 330K 张图像,超过 200K 个标签,跨越 80 个物体类别,包含超过 150 万个物体实例。