重要提示
2024 年 6 月状态更新:移除 DataPipes 和 DataLoader V2
我们将 torchdata 仓库的重心重新调整为对 torch.utils.data.DataLoader 的迭代增强。我们不计划继续开发或维护 [DataPipes] 和 [DataLoaderV2] 解决方案,它们将从 torchdata 仓库中移除。我们还将重新审视 pytorch/pytorch 中对 DataPipes 的引用。在 torchdata==0.8.0 版本(2024 年 7 月)中,它们将被标记为已弃用;在 0.10.0 版本(2024 年末)中,它们将被删除。建议现有用户固定到 torchdata<=0.9.0 或更旧的版本,直到他们能够迁移。后续版本将不再包含 DataPipes 或 DataLoaderV2。如果您有任何建议或意见,请联系我们(请使用此 issue 提供反馈)。
TorchData¶
该库是 PyTorch 项目的一部分。PyTorch 是一个开源的机器学习框架。
torchdata
是一个 Beta 库,包含常见的模块化数据加载原语,用于轻松构建灵活且高性能的数据管道。此外,还有一些功能仍处于原型阶段。
本文档中描述的功能按发布状态分类
稳定版 (Stable): 这些功能将长期维护,通常不会有主要的性能限制或文档缺失。我们也期望保持向后兼容性(尽管可能会发生重大更改,但会提前一个版本通知)。
Beta 版: 功能标记为 Beta 是因为 API 可能会根据用户反馈进行更改,性能需要改进,或者运算符覆盖范围尚不完整。对于 Beta 功能,我们承诺将这些功能推向稳定版。但是,我们不承诺向后兼容性。
原型版 (Prototype): 这些功能通常不作为 PyPI 或 Conda 等二进制分发的一部分提供(有时可通过运行时标志启用),并且处于早期阶段,用于收集反馈和进行测试。
教程和示例