torcharrow.DataFrame¶
torcharrow.DataFrame
是一个 Python DataFrame 库(基于 Apache Arrow 列式内存格式),用于加载、连接、聚合、过滤以及其他数据操作。 torcharrow.DataFrame
还提供了一个类似 Pandas 的 API,它自然地融入 Python ML 生态系统,并为数据科学家和 ML 工程师所熟悉,因此他们可以使用它在 ML 中表达表格数据工作流程,例如特征工程、训练和推理预处理。
DataFrame 类和通用 API¶
- class torcharrow.DataFrame¶
- DataFrame.columns¶
DataFrame 的列标签。
- DataFrame.dtype¶
torcharrow.Column
的数据类型。
- DataFrame.device¶
torcharrow.Column
所在或将要分配到的设备。
- DataFrame.length¶
返回包含空值的行的数量
返回前 n 行。 |
|
返回最后 n 行。 |
|
生成描述性统计信息。 |
|
返回删除了指定列的 DataFrame。 |
|
返回列名重新映射后的 DataFrame。 |
|
(实验性 API) 返回按规定顺序排列列的 DataFrame。 |
|
返回附加了值的列/DataFrame。 |
|
检查 DataFrame 中的每个元素是否包含在值中。 |
函数式 API¶
根据输入对应关系映射行。 |
|
选择谓词为 True 的行。 |
|
根据输入对应关系将行映射到行列表,如果结果类型与项目类型不同,则需要 dtype。 |
|
类似于 map(),但每次调用可调用对象处理一批行。 |
关系型 API¶
类似于 SQL 中的 SELECT。 |
|
类似于 SQL 中的 where(不是 Pandas 中的 where) |
|
按升序或降序对列/DataFrame 进行排序。 |
数据清洗¶
使用指定方法填充空值。 |
|
返回删除了任何或所有空值的行所在的列/DataFrame。 |
|
(实验性 API) 从行/DataFrame 中删除重复值,但保留第一个、最后一个、没有。 |
转换¶
将自身转换为 arrow 表格 |
|
转换为 PyTorch 容器(Tensor、PackedList、PackedMap 等) |
|
转换为普通的 Python 容器(标量或容器列表) |
|
将自身转换为 Pandas DataFrame |
统计信息¶
返回每列非空值的最小值。 |
|
返回每列非空值的最大值。 |
|
返回每列非空值的总和。 |
|
返回每列非空值的平均值。 |
|
返回每列非空值的标准差。 |
|
返回每列非空值的中位数。 |
|
返回所有非空元素是否为 True |
|
返回任何非空元素是否为 True |
算术运算¶
返回一个 DataFrame,其中包含每个元素的自然对数值。 |