• 文档 >
  • torcharrow.DataFrame
快捷方式

torcharrow.DataFrame

torcharrow.DataFrame 是一个 Python DataFrame 库(基于 Apache Arrow 列式内存格式),用于加载、连接、聚合、过滤以及其他数据操作。 torcharrow.DataFrame 还提供了一个类似 Pandas 的 API,它自然地融入 Python ML 生态系统,并为数据科学家和 ML 工程师所熟悉,因此他们可以使用它在 ML 中表达表格数据工作流程,例如特征工程、训练和推理预处理。

DataFrame 类和通用 API

class torcharrow.DataFrame
DataFrame.columns

DataFrame 的列标签。

DataFrame.dtype

torcharrow.Column 的数据类型。

DataFrame.device

torcharrow.Column 所在或将要分配到的设备。

DataFrame.length

返回包含空值的行的数量

DataFrame.head

返回前 n 行。

DataFrame.tail

返回最后 n 行。

DataFrame.describe

生成描述性统计信息。

DataFrame.drop

返回删除了指定列的 DataFrame。

DataFrame.rename

返回列名重新映射后的 DataFrame。

DataFrame.reorder

(实验性 API) 返回按规定顺序排列列的 DataFrame。

DataFrame.append

返回附加了值的列/DataFrame。

DataFrame.isin

检查 DataFrame 中的每个元素是否包含在值中。

函数式 API

DataFrame.map

根据输入对应关系映射行。

DataFrame.filter

选择谓词为 True 的行。

DataFrame.flatmap

根据输入对应关系将行映射到行列表,如果结果类型与项目类型不同,则需要 dtype。

DataFrame.transform

类似于 map(),但每次调用可调用对象处理一批行。

关系型 API

DataFrame.select

类似于 SQL 中的 SELECT

DataFrame.where

类似于 SQL 中的 where(不是 Pandas 中的 where)

DataFrame.sort

按升序或降序对列/DataFrame 进行排序。

数据清洗

DataFrame.fill_null

使用指定方法填充空值。

DataFrame.drop_null

返回删除了任何或所有空值的行所在的列/DataFrame。

DataFrame.drop_duplicates

(实验性 API) 从行/DataFrame 中删除重复值,但保留第一个、最后一个、没有。

转换

DataFrame.to_arrow

将自身转换为 arrow 表格

DataFrame.to_tensor

转换为 PyTorch 容器(Tensor、PackedList、PackedMap 等)

DataFrame.to_pylist

转换为普通的 Python 容器(标量或容器列表)

DataFrame.to_pandas

将自身转换为 Pandas DataFrame

统计信息

DataFrame.min

返回每列非空值的最小值。

DataFrame.max

返回每列非空值的最大值。

DataFrame.sum

返回每列非空值的总和。

DataFrame.mean

返回每列非空值的平均值。

DataFrame.std

返回每列非空值的标准差。

DataFrame.median

返回每列非空值的中位数。

DataFrame.all

返回所有非空元素是否为 True

DataFrame.any

返回任何非空元素是否为 True

算术运算

DataFrame.log

返回一个 DataFrame,其中包含每个元素的自然对数值。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获得面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得解答

查看资源