快捷方式

ParagraphAggregator

class torchdata.datapipes.iter.ParagraphAggregator(source_datapipe: ~IterDataPipe[~Tuple[str, ~T_co]], joiner: ~Callable = <function _default_line_join>)

将来自同一文件的文本行聚合到一个段落中(功能名称:lines_to_paragraphs)。具体来说,它接受一个由文件名和一行组成的元组组成的 DataPipe。对于每个元组,它检查文件名是否与前一个元组的文件名匹配。如果是,则将当前行与现有段落连接起来。如果文件名不匹配,则生成现有段落并开始一个新段落。

参数:
  • source_datapipe – 包含文件名和一行的元组的 DataPipe

  • joiner – 将多行连接在一起的函数

示例

>>> from torchdata.datapipes.iter import IterableWrapper
>>> source_dp = IterableWrapper(
>>>                 [("file1", "Line1"), ("file1", "Line2"), ("file2", "Line2,1"), ("file2", "Line2,2"), ("file2", "Line2,3")]
>>>             )
>>> para_agg_dp = source_dp.lines_to_paragraphs(joiner=lambda ls: " ".join(ls))
>>> list(para_agg_dp)
[('file1', 'Line1 Line2'), ('file2', 'Line2,1 Line2,2 Line2,3')]

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的疑问

查看资源