torcharrow.functional¶
Velox 核心函数¶
Velox 核心函数 包含在 torcharrow.functional 中。
以下是 Velox 字符串函数 lpad 的示例用法
>>> import torcharrow as ta
>>> from torcharrow import functional
>>> col = ta.column(["abc", "x", "yz"])
# Velox's lpad function: https://facebookincubator.github.io/velox/functions/string.html#lpad
>>> functional.lpad(col, 5, "123")
0 '12abc'
1 '1231x'
2 '123yz'
dtype: String(nullable=True), length: 3, null_count: 0, device: cpu
以下是 Velox 数组函数 array_except 的另一个示例用法
>>> col1 = ta.column([[1, 2, 3], [1, 2, 3], [1, 2, 2], [1, 2, 2]])
>>> col2 = ta.column([[4, 5, 6], [1, 2], [1, 1, 2], [1, 3, 4]])
# Velox's array_except function: https://facebookincubator.github.io/velox/functions/array.html#array_except
>>> functional.array_except(col1, col2)
0 [1, 2, 3]
1 [3]
2 []
3 [2]
dtype: List(Int64(nullable=True), nullable=True), length: 4, null_count: 0
文本操作¶
将令牌/索引列表附加或添加到列的前面。 |
推荐操作¶
对输入特征应用分箱。 |
|
对索引或索引列表应用哈希。 |
|
返回输入列头部的前 x 个值 |
|
如果两个输入列重叠,则返回 1.0,否则返回 0.0 |
|
返回两个 id 列表之间重叠的数量 |
|
如果 input_ids 和 matching_ids 之间存在重叠的项目,则将重叠 id 的最大实例数贡献给最大计数。 |
|
返回 input_ids 和 matching_ids 之间的 jaccard_similarity。 |
|
返回由 input_ids 定义的向量(以 input_id_scores 为权重)和由 matching_ids 定义的向量(以 matching_id_scores 为权重)之间的余弦相似度。 |
|
返回 matching_id_scores 中所有分数的总和,这些分数在 matching_ids 中具有相应的 id,并且该 id 也在 input_ids 中。 |
|
返回 matching_id_scores 中所有分数的最小值,这些分数在 matching_ids 中具有相应的 id,并且该 id 也在 input_ids 中。 |
|
返回 matching_id_scores 中所有分数的最小值,这些分数在 matching_ids 中具有相应的 id,并且该 id 也在 input_ids 中。 |
高级操作¶
返回缩放至 [0,1] 范围内的列数据。 |