快捷方式

ParquetDataFrameLoader

class torchdata.datapipes.iter.ParquetDataFrameLoader(source_dp: IterDataPipe[str], dtype=None, columns: Optional[List[str]] = None, device: str = '', use_threads: bool = False)

接收 Parquet 文件的路径并为每个 Parquet 文件中的行组返回一个 TorchArrow DataFrame(函数名称:load_parquet_as_df)。

参数:
  • source_dp – 包含 Parquet 文件路径的源 DataPipe

  • columns – 指定 DataFrame 列名的 str 列表

  • use_threads – 如果为 True,Parquet 读取器将执行多线程列读取

  • dtype – 指定 DataFrame 的 TorchArrow 数据类型,使用 torcharrow.dtypes.DType

  • device – 指定 DataFrame 将在其中存储的设备

示例

>>> from torchdata.datapipes.iter import FileLister
>>> import torcharrow.dtypes as dt
>>> DTYPE = dt.Struct([dt.Field("Values", dt.int32)])
>>> source_dp = FileLister(".", masks="df*.parquet")
>>> parquet_df_dp = source_dp.load_parquet_as_df(dtype=DTYPE)
>>> list(parquet_df_dp)[0]
  index    Values
-------  --------
      0         0
      1         1
      2         2
dtype: Struct([Field('Values', int32)]), count: 3, null_count: 0

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源