快捷方式

torcharrow.Column

torcharrow.Column 是一种一维类似 torch.Tensor 的数据结构,包含单个数据类型元素。它还支持非数值类型,例如字符串、列表、结构体。

数据类型

TorchArrow 为列定义了以下数据类型,位于模块 torcharrow.dtypes 中(在下表中缩写为 dt

数据类型

dtype

32 位浮点数

dt.float32dt.Float32(nullable)

64 位浮点数

dt.float64dt.Float64(nullable)

8 位有符号整数

dt.int8dt.Int8(nullable)

16 位有符号整数

dt.int16dt.Int16(nullable)

32 位有符号整数

dt.int32dt.Int32(nullable)

64 位有符号整数

dt.int64dt.Int64(nullable)

布尔值

dt.booleandt.Boolean(nullable)

字符串

dt.stringdt.String(nullable)

列表

dt.List(item_dtype, nullable)

结构体

dt.Struct(fields, nullable)

Column 类参考

class torcharrow.Column
Column.dtype

torcharrow.Column 的数据类型

Column.device

torcharrow.Column 所在或将要分配到的设备。

Column.length

返回行数,包括空值

Column.null_count

返回空值的数量

Column.head

返回前 n 行。

Column.tail

返回最后 n 行。

Column.cast

将列转换为给定的 dtype

Column.is_valid_at

(实验性 API) 返回索引 i 处的数据是否有效,即非空

Column.append

返回追加了值的列/数据框。

Column.isin

检查列中的每个元素是否包含在 values 中。

Column.all

返回所有非空元素是否为 True

Column.any

返回任何非空元素是否为 True

Column.map

根据输入对应关系映射行。

Column.filter

选择谓词为 True 的行。

Column.flatmap

根据输入对应关系将行映射到行列表,如果结果类型 != 项目类型,则需要 dtype。

Column.transform

类似 map(),但一次调用可调用对象处理一批行。

Column.fill_null

使用指定的方法填充空值。

Column.drop_null

返回删除了任何或所有空值的行的列/数据框。

Column.drop_duplicates

(实验性 API) 删除行/数据框中的重复值,但保留第一个、最后一个或都不保留

Column.to_arrow

将自身转换为箭头数组

Column.to_tensor

转换为 PyTorch 容器(张量、PackedList、PackedMap 等)

Column.to_pylist

转换为普通 Python 容器(标量或容器列表)

Column.to_pandas

将自身转换为 Pandas Series

NumericalColumn 类参考

class torcharrow.NumericalColumn

NumericalColumn.abs

系列中每个元素的绝对值。

NumericalColumn.ceil

将每个值向上舍入到最小的整数

NumericalColumn.floor

将每个值向下舍入到最大的整数

NumericalColumn.round

将数据中的每个值舍入到指定的小数位数。

NumericalColumn.log

返回一个新列,包含元素的自然对数

NumericalColumn.describe

生成描述性统计信息。

NumericalColumn.min

返回非空值的最小值。

NumericalColumn.max

返回非空值的最大值。

NumericalColumn.sum

返回非空值的总和。

NumericalColumn.mean

返回非空值的平均值。

NumericalColumn.std

返回数据的标准差。

NumericalColumn.median

返回数据中值的中间值。

StringColumn 类参考

class torcharrow.StringColumn

istring_column.StringMethods.length

计算列中每个元素的长度。

istring_column.StringMethods.slice

从列中每个元素切片子字符串。

istring_column.StringMethods.split

根据给定的分隔符/定界符拆分字符串。

istring_column.StringMethods.strip

删除前导和尾随空格。

istring_column.StringMethods.isalpha

如果字符串是字母字符串,则返回 True,否则返回 False。

istring_column.StringMethods.isnumeric

如果所有字符都是数字,则返回 True,否则返回 False。

istring_column.StringMethods.isalnum

如果字符串中的所有字符都是字母数字(字母或数字),则返回 True,否则返回 False。

istring_column.StringMethods.isdigit

如果字符串中的所有字符都是数字,则返回 True,否则返回 False。

istring_column.StringMethods.isdecimal

如果字符串仅包含十进制数字(从 0 到 9),则返回 True,否则返回 False。

istring_column.StringMethods.isspace

如果字符串中的所有字符都是空格,则返回 True,否则返回 False。

istring_column.StringMethods.islower

如果非空字符串为小写,则返回 True,否则返回 False。

istring_column.StringMethods.isupper

如果非空字符串为大写,则返回 True,否则返回 False。

istring_column.StringMethods.istitle

如果字符串的每个单词都以大写字母开头,则返回 True,否则返回 False。

istring_column.StringMethods.lower

将列中的字符串转换为小写。

istring_column.StringMethods.upper

将列中的字符串转换为大写。

istring_column.StringMethods.startswith

测试每个字符串元素的开头是否与模式匹配。

istring_column.StringMethods.endswith

测试每个字符串元素的结尾是否与模式匹配。

istring_column.StringMethods.count

统计列中每个字符串中模式出现的次数

istring_column.StringMethods.find

返回列中每个字符串的最低索引。

istring_column.StringMethods.replace

替换列中模式的每次出现。

istring_column.StringMethods.match

确定每个字符串是否与正则表达式匹配

istring_column.StringMethods.contains

测试每个项目模式是否包含在字符串中;返回布尔值

istring_column.StringMethods.findall

查找每个项目中模式的所有出现次数(参见 re.findall())

ListColumn 类参考

class torcharrow.ListColumn

ilist_column.ListMethods.length

计算列中每个元素的长度。

ilist_column.ListMethods.slice

从列中的每个元素切片子列表

ilist_column.ListMethods.vmap

(实验性 API) 向量化映射。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源