ParquetDataFrameLoader¶
- class torchdata.datapipes.iter.ParquetDataFrameLoader(source_dp: IterDataPipe[str], dtype=None, columns: Optional[List[str]] = None, device: str = '', use_threads: bool = False)¶
接收 Parquet 文件的路径并为每个 Parquet 文件中的行组返回一个 TorchArrow DataFrame(函数名称:
load_parquet_as_df
)。- 参数:
source_dp – 包含 Parquet 文件路径的源 DataPipe
columns – 指定 DataFrame 列名的 str 列表
use_threads – 如果为
True
,Parquet 读取器将执行多线程列读取dtype – 指定 DataFrame 的 TorchArrow 数据类型,使用
torcharrow.dtypes.DType
device – 指定 DataFrame 将在其中存储的设备
示例
>>> from torchdata.datapipes.iter import FileLister >>> import torcharrow.dtypes as dt >>> DTYPE = dt.Struct([dt.Field("Values", dt.int32)]) >>> source_dp = FileLister(".", masks="df*.parquet") >>> parquet_df_dp = source_dp.load_parquet_as_df(dtype=DTYPE) >>> list(parquet_df_dp)[0] index Values ------- -------- 0 0 1 1 2 2 dtype: Struct([Field('Values', int32)]), count: 3, null_count: 0