快捷方式

TensorDictParams

class tensordict.TensorDictParams(parameters: TensorDictBase, *, no_convert=False, lock: bool = False)

保存一个包含参数的 TensorDictBase 实例。

此类将包含的参数暴露给父 nn.Module,这样对模块参数进行迭代也会对 tensordict 的叶子进行迭代。

索引与包装的 tensordict 的索引完全相同。参数名称将在该模块中使用 flatten_keys("_")() 注册。因此,named_parameters() 的结果和 tensordict 的内容在键名称方面略有不同。

任何在 tensordict 中设置张量的操作都将通过 torch.nn.Parameter 转换进行增强。

参数:

parameters (TensorDictBase) – 表示为参数的 tensordict。值将转换为参数,除非 no_convert=True

关键字参数:
  • no_convert (bool) – 如果为 True,则在构造时和之后不会发生转换为 nn.Parameter(除非 no_convert 属性已更改)。如果 no_convertTrue 并且存在非参数,它们将注册为缓冲区。默认为 False

  • lock (bool) – 如果为 True,则由 TensorDictParams 托管的 tensordict 将被锁定。这对于避免意外修改很有用,但也限制了可以在对象上执行的操作(并且在需要 unlock_() 时可能会产生显著的性能影响)。默认为 False

示例

>>> from torch import nn
>>> from tensordict import TensorDict
>>> module = nn.Sequential(nn.Linear(3, 4), nn.Linear(4, 4))
>>> params = TensorDict.from_module(module)
>>> params.lock_()
>>> p = TensorDictParams(params)
>>> print(p)
TensorDictParams(params=TensorDict(
    fields={
        0: TensorDict(
            fields={
                bias: Parameter(shape=torch.Size([4]), device=cpu, dtype=torch.float32, is_shared=False),
                weight: Parameter(shape=torch.Size([4, 3]), device=cpu, dtype=torch.float32, is_shared=False)},
            batch_size=torch.Size([]),
            device=None,
            is_shared=False),
        1: TensorDict(
            fields={
                bias: Parameter(shape=torch.Size([4]), device=cpu, dtype=torch.float32, is_shared=False),
                weight: Parameter(shape=torch.Size([4, 4]), device=cpu, dtype=torch.float32, is_shared=False)},
            batch_size=torch.Size([]),
            device=None,
            is_shared=False)},
    batch_size=torch.Size([]),
    device=None,
    is_shared=False))
>>> class CustomModule(nn.Module):
...     def __init__(self, params):
...         super().__init__()
...         self.params = params
>>> m = CustomModule(p)
>>> # the wrapper supports assignment and values are turned in Parameter
>>> m.params['other'] = torch.randn(3)
>>> assert isinstance(m.params['other'], nn.Parameter)
abs() T

计算 TensorDict 中每个元素的绝对值。

abs_() T

就地计算 TensorDict 中每个元素的绝对值。

acos() T

计算 TensorDict 中每个元素的 acos() 值。

acos_() T

就地计算 TensorDict 中每个元素的 acos() 值。

add(other: TensorDictBase | torch.Tensor, *, alpha: float | None = None, default: str | CompatibleType | None = None) TensorDictBase

other(按 alpha 缩放)添加到 self 中。

\[\text{{out}}_i = \text{{input}}_i + \text{{alpha}} \times \text{{other}}_i\]
参数:

other (TensorDictBasetorch.Tensor) – 要添加到 self 中的张量或 TensorDict。

关键字参数:
  • alpha (数字, 可选) – other 的乘数。

  • default (torch.Tensorstr, 可选) – 用于独占条目默认值。如果未提供,则两个 tensordict 的键列表必须完全匹配。如果传递 default="intersection",则仅考虑相交键集,其他键将被忽略。在所有其他情况下,将使用 default 用于操作两侧的所有缺失条目。

add_(other: TensorDictBase | float, *, alpha: float | None = None)

add() 的就地版本。

注意

就地 add 不支持 default 关键字参数。

add_module(name: str, module: Optional[Module]) None

将子模块添加到当前模块。

可以使用给定名称将模块作为属性访问。

参数:
  • name (str) – 子模块的名称。可以使用给定名称从该模块访问子模块

  • module (Module) – 要添加到模块的子模块。

addcdiv(other1: TensorDictBase | torch.Tensor, other2: TensorDictBase | torch.Tensor, value: float | None = 1)

other1 除以 other2 执行逐元素运算,将结果乘以标量 value,并将其添加到 self 中。

\[\text{out}_i = \text{input}_i + \text{value} \times \frac{\text{tensor1}_i}{\text{tensor2}_i}\]

selfother1other2 的元素形状必须可广播。

对于类型为 FloatTensorDoubleTensor 的输入,value 必须是实数,否则为整数。

参数:
  • other1 (TensorDictTensor) – 分子 tensordict(或张量)

  • tensor2 (TensorDictTensor) – 分母 tensordict(或张量)

关键字参数:

value (Number, optional) – \(\text{tensor1} / \text{tensor2}\) 的乘数

addcdiv_(other1, other2, *, value: float | None = 1)

addcdiv() 的就地版本。

addcmul(other1, other2, *, value: float | None = 1)

other1 乘以 other2 执行逐元素运算,将结果乘以标量 value,并将其添加到 self 中。

\[\text{out}_i = \text{input}_i + \text{value} \times \text{other1}_i \times \text{other2}_i\]

selfother1other2 的形状必须可广播。

对于类型为 FloatTensorDoubleTensor 的输入,value 必须是实数,否则为整数。

参数:
  • other1 (TensorDictTensor) – 要乘以的 tensordict 或张量

  • other2 (TensorDictTensor) – 要乘以的 tensordict 或张量

关键字参数:

value (Number, optional) – \(other1 .* other2\) 的乘数

addcmul_(other1, other2, *, value: float | None = 1)

addcmul() 的就地版本。

all(dim: int = None) bool | TensorDictBase

检查 tensordict 中的所有值是否为 True/非空。

参数:

dim (int, optional) – 如果为 None,则返回一个布尔值,指示所有张量是否都返回 tensor.all() == True。如果为整数,则仅当该维度与 tensordict 形状兼容时,才会在指定维度上调用 all。

any(dim: int = None) bool | TensorDictBase

检查 tensordict 中的任何值是否为 True/非空。

参数:

dim (int, optional) – 如果为 None,则返回一个布尔值,指示所有张量是否都返回 tensor.any() == True。如果为整数,则仅当该维度与 tensordict 形状兼容时,才会在指定维度上调用 all。

apply(fn: Callable, *others: TensorDictBase, batch_size: Sequence[int] | None = None, device: torch.device | None = _NoDefault.ZERO, names: Sequence[str] | None = _NoDefault.ZERO, inplace: bool = False, default: Any = _NoDefault.ZERO, filter_empty: bool | None = None, call_on_nested: bool = False, **constructor_kwargs) TensorDictBase | None

将一个可调用对象应用于 tensordict 中存储的所有值,并将它们设置到一个新的 tensordict 中。

可调用对象的签名必须为 Callable[Tuple[Tensor, ...], Optional[Union[Tensor, TensorDictBase]]]

参数:
  • fn (Callable) – 要应用于 tensordict 中的张量的函数。

  • *others (TensorDictBase 实例, 可选) – 如果提供,这些 tensordict 实例应该具有与 self 相匹配的结构。 fn 参数应该接收与 tensordict 数量相同的未命名输入,包括 self。如果其他 tensordict 具有缺失的条目,可以通过 default 关键字参数传递一个默认值。

关键字参数:
  • batch_size (整数序列, 可选) – 如果提供,则生成的 TensorDict 将具有所需的 batch_size。 batch_size 参数应该与转换后的 batch_size 相匹配。这是一个仅限关键字的参数。

  • device (torch.device, 可选) – 生成的设备(如果有)。

  • names (字符串列表, 可选) – 新的维度名称,如果 batch_size 被修改。

  • inplace (bool, 可选) – 如果为 True,则会进行就地更改。默认值为 False。这是一个仅限关键字的参数。

  • default (Any, 可选) – 其他 tensordict 中缺失条目的默认值。如果没有提供,缺失的条目将引发 KeyError

  • filter_empty (bool, 可选) – 如果为 True,则会过滤掉空的 tensordict。 这也带来更低的计算成本,因为不会创建和销毁空数据结构。 非张量数据被视为叶节点,因此即使未被函数触碰,也会保留在 tensordict 中。 默认值为 False,以确保向后兼容性。

  • propagate_lock (bool, 可选) – 如果为 True,则锁定 tensordict 将生成另一个锁定 tensordict。 默认值为 False

  • call_on_nested (bool, 可选) –

    如果为 True,则该函数将被调用到第一级张量和容器(TensorDict 或张量类)上。 在这种情况下, func 负责将其调用传播到嵌套级别。 这允许在将调用传播到嵌套 tensordict 时实现细粒度的行为。 如果为 False,则该函数将只被调用到叶节点上,并且 apply 将负责将该函数分发到所有叶节点上。

    >>> td = TensorDict({"a": {"b": [0.0, 1.0]}, "c": [1.0, 2.0]})
    >>> def mean_tensor_only(val):
    ...     if is_tensor_collection(val):
    ...         raise RuntimeError("Unexpected!")
    ...     return val.mean()
    >>> td_mean = td.apply(mean_tensor_only)
    >>> def mean_any(val):
    ...     if is_tensor_collection(val):
    ...         # Recurse
    ...         return val.apply(mean_any, call_on_nested=True)
    ...     return val.mean()
    >>> td_mean = td.apply(mean_any, call_on_nested=True)
    

  • out (TensorDictBase, 可选) –

    要写入结果的 tensordict。 这可以用来避免创建新的 tensordict

    >>> td = TensorDict({"a": 0})
    >>> td.apply(lambda x: x+1, out=td)
    >>> assert (td==1).all()
    

    警告

    如果 tensordict 上执行的操作需要访问多个键才能进行单次计算,则提供等于 selfout 参数会导致操作静默地提供错误的结果。 例如

    >>> td = TensorDict({"a": 1, "b": 1})
    >>> td.apply(lambda x: x+td["a"])["b"] # Right!
    tensor(2)
    >>> td.apply(lambda x: x+td["a"], out=td)["b"] # Wrong!
    tensor(3)
    

  • **constructor_kwargs – 要传递给 TensorDict 构造函数的额外关键字参数。

返回值::

一个新的 tensordict,其中包含经过转换的张量。

示例

>>> td = TensorDict({
...     "a": -torch.ones(3),
...     "b": {"c": torch.ones(3)}},
...     batch_size=[3])
>>> td_1 = td.apply(lambda x: x+1)
>>> assert (td_1["a"] == 0).all()
>>> assert (td_1["b", "c"] == 2).all()
>>> td_2 = td.apply(lambda x, y: x+y, td)
>>> assert (td_2["a"] == -2).all()
>>> assert (td_2["b", "c"] == 2).all()

注意

如果函数返回 None,则会忽略该条目。 这可以用来过滤 tensordict 中的数据

>>> td = TensorDict({"1": 1, "2": 2, "b": {"2": 2, "1": 1}}, [])
>>> def filter(tensor):
...     if tensor == 1:
...         return tensor
>>> td.apply(filter)
TensorDict(
    fields={
        1: Tensor(shape=torch.Size([]), device=cpu, dtype=torch.int64, is_shared=False),
        b: TensorDict(
            fields={
                1: Tensor(shape=torch.Size([]), device=cpu, dtype=torch.int64, is_shared=False)},
            batch_size=torch.Size([]),
            device=None,
            is_shared=False)},
    batch_size=torch.Size([]),
    device=None,
    is_shared=False)

注意

apply 方法将返回一个 TensorDict 实例,无论输入类型是什么。 为了保持相同的类型,可以执行

>>> out = td.clone(False).update(td.apply(...))
apply_(fn: Callable, *others, **kwargs) T

将一个可调用对象应用于 tensordict 中存储的所有值,并在原位重新写入它们。

参数:
  • fn (Callable) – 要应用于 tensordict 中的张量的函数。

  • *others (TensorDictBase 序列, 可选) – 要使用的其他 tensordict。

关键字参数:参见 apply()

返回值::

self 或应用了函数的 self 的副本

asin() T

计算 TensorDict 中每个元素的 asin() 值。

asin_() T

在原位计算 TensorDict 中每个元素的 asin() 值。

atan() T

计算 TensorDict 中每个元素的 atan() 值。

atan_() T

在原位计算 TensorDict 中每个元素的 atan() 值。

auto_batch_size_(batch_dims: int | None = None) T

设置 tensordict 的最大批次大小,最多可以到可选的 batch_dims。

参数:

batch_dims (int, optional) – 如果提供,则批次大小最多为 batch_dims 长。

返回值::

self

示例

>>> from tensordict import TensorDict
>>> import torch
>>> td = TensorDict({"a": torch.randn(3, 4, 5), "b": {"c": torch.randn(3, 4, 6)}}, batch_size=[])
>>> td.auto_batch_size_()
>>> print(td.batch_size)
torch.Size([3, 4])
>>> td.auto_batch_size_(batch_dims=1)
>>> print(td.batch_size)
torch.Size([3])
property batch_dims: int

tensordict 批次大小的长度。

返回值::

表示 tensordict 维度数量的整数。

property batch_size: Size

TensorDict 的形状(或批次大小)。

tensordict 的形状对应于它包含的张量的共同前 N 个维度,其中 N 是任意数字。批次大小与“特征大小”形成对比,后者表示张量的语义相关形状。例如,一批视频可能具有形状 [B, T, C, W, H],其中 [B, T] 是批次大小(批次和时间维度),而 [C, W, H] 是特征维度(通道和空间维度)。

TensorDict 的形状由用户在初始化时控制(即,它不是从张量形状推断出来的)。

batch_size 可以动态编辑,只要新大小与 TensorDict 内容兼容。例如,始终允许将批次大小设置为空值。

返回值::

一个 Size 对象,描述了 TensorDict 批次大小。

示例

>>> data = TensorDict({
...     "key 0": torch.randn(3, 4),
...     "key 1": torch.randn(3, 5),
...     "nested": TensorDict({"key 0": torch.randn(3, 4)}, batch_size=[3, 4])},
...     batch_size=[3])
>>> data.batch_size = () # resets the batch-size to an empty value
bfloat16()

将所有张量转换为 torch.bfloat16

bool()

将所有张量转换为 torch.bool

buffers(recurse: bool = True) Iterator[Tensor]

返回模块缓冲区的迭代器。

参数:

recurse (bool) – 如果为 True,则会生成此模块及其所有子模块的缓冲区。否则,仅生成作为此模块直接成员的缓冲区。

生成:

torch.Tensor – 模块缓冲区

示例

>>> # xdoctest: +SKIP("undefined vars")
>>> for buf in model.buffers():
>>>     print(type(buf), buf.size())
<class 'torch.Tensor'> (20L,)
<class 'torch.Tensor'> (20L, 1L, 5L, 5L)
classmethod cat(input, dim=0, *, out=None)

将 tensordicts 沿给定维度连接成一个 tensordict。

此调用等效于调用 torch.cat(),但与 torch.compile 兼容。

ceil() T

计算 TensorDict 中每个元素的 ceil() 值。

ceil_() T

就地计算 TensorDict 中每个元素的 ceil() 值。

children() Iterator[Module]

返回直接子模块的迭代器。

生成:

Module – 子模块

chunk(chunks: int, dim: int = 0) tuple[TensorDictBase, ...]

如果可能,将 tensordict 拆分为指定数量的块。

每个块都是输入 tensordict 的视图。

参数:
  • chunks (int) – 要返回的块数

  • dim (int, optional) – 要沿其拆分 tensordict 的维度。默认值为 0。

示例

>>> td = TensorDict({
...     'x': torch.arange(24).reshape(3, 4, 2),
... }, batch_size=[3, 4])
>>> td0, td1 = td.chunk(dim=-1, chunks=2)
>>> td0['x']
tensor([[[ 0,  1],
         [ 2,  3]],
        [[ 8,  9],
         [10, 11]],
        [[16, 17],
         [18, 19]]])
clamp_max(other: TensorDictBase | torch.Tensor, *, default: str | CompatibleType | None = None) T

如果 self 的元素高于该值,则将其夹紧到 other

参数:

other (TensorDict or Tensor) – 另一个输入 tensordict 或张量。

关键字参数:

default (torch.Tensorstr, 可选) – 用于独占条目默认值。如果未提供,则两个 tensordict 的键列表必须完全匹配。如果传递 default="intersection",则仅考虑相交键集,其他键将被忽略。在所有其他情况下,将使用 default 用于操作两侧的所有缺失条目。

clamp_max_(other: TensorDictBase | torch.Tensor) T

clamp_max() 的就地版本。

注意

就地 clamp_max 不支持 default 关键字参数。

clamp_min(other: TensorDictBase | torch.Tensor, default: str | CompatibleType | None = None) T

self 中元素与 other 的值进行比较,如果小于该值,则将其钳位到 other

参数:

other (TensorDict or Tensor) – 另一个输入 tensordict 或张量。

关键字参数:

default (torch.Tensorstr, 可选) – 用于独占条目默认值。如果未提供,则两个 tensordict 的键列表必须完全匹配。如果传递 default="intersection",则仅考虑相交键集,其他键将被忽略。在所有其他情况下,将使用 default 用于操作两侧的所有缺失条目。

clamp_min_(other: TensorDictBase | torch.Tensor) T

clamp_min() 的原地版本。

注意

原地 clamp_min 不支持 default 关键字参数。

clear() T

清除 tensordict 的内容。

clear_device_() T

清除 tensordict 的设备。

返回值:self

clone(recurse: bool = True, **kwargs) T

将 TensorDictBase 子类实例克隆到同一个类型的新的 TensorDictBase 子类上。

要从任何其他 TensorDictBase 子类型创建 TensorDict 实例,请改为调用 to_tensordict() 方法。

参数:

recurse (bool, optional) – 如果为 True,则 TensorDict 中包含的每个张量也会被复制。否则,只会复制 TensorDict 树结构。默认为 True

注意

与许多其他操作(逐点算术运算、形状操作等)不同,clone 不会继承原始锁定属性。这种设计选择是为了便于创建克隆以进行修改,这在大多数情况下是最常见的用法。

compile(*args, **kwargs)

使用 torch.compile() 编译此模块的正向传递。

此模块的 __call__ 方法已编译,所有参数按原样传递给 torch.compile()

有关此函数参数的详细信息,请参阅 torch.compile()

complex128()

将所有张量转换为 torch.complex128

complex32()

将所有张量转换为 torch.complex32

complex64()

将所有张量转换为 torch.complex64

consolidate(filename: Path | str | None = None, *, num_threads=0, device: torch.device | None = None, non_blocking: bool = False, inplace: bool = False, return_early: bool = False, use_buffer: bool = False, share_memory: bool = False, pin_memory: bool = False, metadata: bool = False) None

将 tensordict 的内容合并到单个存储中,以便快速序列化。

参数:

filename (Path, optional) – 一个可选的文件路径,用于内存映射张量,作为 tensordict 的存储。

关键字参数:
  • num_threads (integer, optional) – 用于填充存储的线程数。

  • device (torch.device, optional) – 存储必须在其中的可选设备。

  • non_blocking (bool, optional) – 传递给 copy_()non_blocking 参数。

  • inplace (bool, optional) – 如果为 True,则结果 tensordict 与 self 相同,具有更新的值。默认为 False

  • return_early (bool, optional) – 如果为 Truenum_threads>0,则该方法将返回 tensordict 的未来。可以使用 future.result() 查询结果 tensordict。

  • use_buffer (bool, optional) – 如果 True 并且传递了文件名,将在共享内存中创建一个中间本地缓冲区,并将数据作为最后一步复制到存储位置。这可能比直接写入远程物理内存(例如,NFS)更快。默认值为 False

  • share_memory (bool, optional) – 如果 True,存储将放置在共享内存中。默认值为 False

  • pin_memory (bool, optional) – 合并后的数据是否应放置在固定内存中。默认值为 False

  • metadata (bool, optional) – 如果 True,元数据将与公共存储一起存储。如果提供文件名,则此操作无效。当想要控制序列化方式时,存储元数据很有用,因为如果元数据可用或不可用,TensorDict 会以不同的方式处理合并的 TD 的序列化/反序列化。

注意

如果 tensordict 已经合并,则所有参数都将被忽略,并且将返回 self。调用 contiguous() 重新合并。

示例

>>> import pickle
>>> import tempfile
>>> import torch
>>> import tqdm
>>> from torch.utils.benchmark import Timer
>>> from tensordict import TensorDict
>>> data = TensorDict({"a": torch.zeros(()), "b": {"c": torch.zeros(())}})
>>> data_consolidated = data.consolidate()
>>> # check that the data has a single data_ptr()
>>> assert torch.tensor([
...     v.untyped_storage().data_ptr() for v in data_c.values(True, True)
... ]).unique().numel() == 1
>>> # Serializing the tensordict will be faster with data_consolidated
>>> with open("data.pickle", "wb") as f:
...    print("regular", Timer("pickle.dump(data, f)", globals=globals()).adaptive_autorange())
>>> with open("data_c.pickle", "wb") as f:
...     print("consolidated", Timer("pickle.dump(data_consolidated, f)", globals=globals()).adaptive_autorange())
contiguous(*args, **kwargs)

返回一个新的 tensordict,其类型相同,具有连续的值(如果值已经是连续的,则返回 self)。

copy()

返回 tensordict 的浅层副本(即,复制结构但不复制数据)。

等效于 TensorDictBase.clone(recurse=False)

copy_(tensordict: T, non_blocking: bool = None) T

TensorDictBase.update_

非阻塞参数将被忽略,仅存在于与 torch.Tensor.copy_() 保持兼容。

copy_at_(tensordict: T, idx: Union[None, int, slice, str, Tensor, List[Any], Tuple[Any, ...]], non_blocking: bool = False) T

TensorDictBase.update_at_

cos() T

计算 TensorDict 中每个元素的 cos() 值。

cos_() T

就地计算 TensorDict 中每个元素的 cos() 值。

cosh() T

计算 TensorDict 中每个元素的 cosh() 值。

cosh_() T

就地计算 TensorDict 中每个元素的 cosh() 值。

cpu()

将 tensordict 转换为 CPU。

此函数还支持 to() 的所有关键字参数。

create_nested(key)

创建与当前 tensordict 形状、设备和维名称相同的嵌套 tensordict。

如果值已存在,它将被此操作覆盖。此操作在锁定的 tensordict 中被阻止。

示例

>>> data = TensorDict({}, [3, 4, 5])
>>> data.create_nested("root")
>>> data.create_nested(("some", "nested", "value"))
>>> print(data)
TensorDict(
    fields={
        root: TensorDict(
            fields={
            },
            batch_size=torch.Size([3, 4, 5]),
            device=None,
            is_shared=False),
        some: TensorDict(
            fields={
                nested: TensorDict(
                    fields={
                        value: TensorDict(
                            fields={
                            },
                            batch_size=torch.Size([3, 4, 5]),
                            device=None,
                            is_shared=False)},
                    batch_size=torch.Size([3, 4, 5]),
                    device=None,
                    is_shared=False)},
            batch_size=torch.Size([3, 4, 5]),
            device=None,
            is_shared=False)},
    batch_size=torch.Size([3, 4, 5]),
    device=None,
    is_shared=False)
cuda(device=None)

将 tensordict 转换为 cuda 设备(如果尚未在该设备上)。

参数:

device (int, optional) – 如果提供,则为应转换张量的 cuda 设备。

此函数还支持 to() 的所有关键字参数。

property data

返回一个 tensordict,其中包含叶子张量的 .data 属性。

del_(*args, **kwargs)

删除 tensordict 的一个键。

参数:

key (NestedKey) – 要删除的键

返回值::

self

property depth: int

返回 tensordict 的深度 - 最大级别数。

最小深度为 0(没有嵌套 tensordict)。

detach() T

分离 tensordict 中的张量。

返回值::

一个新的 tensordict,其中没有张量需要梯度。

detach_(*args, **kwargs)

就地分离 tensordict 中的张量。

返回值::

self。

property device

TensorDict 的设备。

如果 TensorDict 具有指定的设备,则其所有张量(包括嵌套张量)都必须位于同一设备上。如果 TensorDict 设备为 None,则不同的值可以位于不同的设备上。

返回值::

torch.device 对象,指示张量放置的设备,如果 TensorDict 没有设备,则为 None。

示例

>>> td = TensorDict({
...     "cpu": torch.randn(3, device='cpu'),
...     "cuda": torch.randn(3, device='cuda'),
... }, batch_size=[], device=None)
>>> td['cpu'].device
device(type='cpu')
>>> td['cuda'].device
device(type='cuda')
>>> td = TensorDict({
...     "x": torch.randn(3, device='cpu'),
...     "y": torch.randn(3, device='cuda'),
... }, batch_size=[], device='cuda')
>>> td['x'].device
device(type='cuda')
>>> td['y'].device
device(type='cuda')
>>> td = TensorDict({
...     "x": torch.randn(3, device='cpu'),
...     "y": TensorDict({'z': torch.randn(3, device='cpu')}, batch_size=[], device=None),
... }, batch_size=[], device='cuda')
>>> td['x'].device
device(type='cuda')
>>> td['y'].device # nested tensordicts are also mapped onto the appropriate device.
device(type='cuda')
>>> td['y', 'x'].device
device(type='cuda')
dim() int

batch_dims()

div(other: TensorDictBase | torch.Tensor, *, default: str | CompatibleType | None = None) T

将输入 self 的每个元素除以 other 的对应元素。

\[\text{out}_i = \frac{\text{input}_i}{\text{other}_i}\]

支持广播、类型提升以及整数、浮点数、tensordict 或张量输入。始终将整数类型提升为默认标量类型。

参数:

other (TensorDict, Tensor or Number) – 除数。

关键字参数:

default (torch.Tensorstr, 可选) – 用于独占条目默认值。如果未提供,则两个 tensordict 的键列表必须完全匹配。如果传递 default="intersection",则仅考虑相交键集,其他键将被忽略。在所有其他情况下,将使用 default 用于操作两侧的所有缺失条目。

div_(other: TensorDictBase | torch.Tensor) T

div() 的就地版本。

注意

就地 div 不支持 default 关键字参数。

double()

将所有张量转换为 torch.bool

property dtype

返回 tensordict 中值的 dtype,如果它唯一。

dumps(prefix: str | None = None, copy_existing: bool = False, *, num_threads: int = 0, return_early: bool = False, share_non_tensor: bool = False) T

将 tensordict 保存到磁盘。

此函数是 memmap() 的代理。

empty(recurse=False, *, batch_size=None, device=_NoDefault.ZERO, names=None) T

返回一个新的空 tensordict,具有相同的设备和批次大小。

参数:

recurse (bool, optional) – 如果 True,则将复制 TensorDict 的整个结构,但没有内容。否则,只复制根节点。默认值为 False

关键字参数:
  • batch_size (torch.Size, optional) – tensordict 的新的批次大小。

  • device (torch.device, optional) – 新的设备。

  • names (list of str, optional) – 维度名称。

entry_class(*args, **kwargs)

返回条目的类,可能避免调用 isinstance(td.get(key), type)

只要 get() 的执行成本很高,都应优先使用此方法,而不是 tensordict.get(key).shape

erf() T

计算 TensorDict 每个元素的 erf() 值。

erf_() T

就地计算 TensorDict 每个元素的 erf() 值。

erfc() T

计算 TensorDict 每个元素的 erfc() 值。

erfc_() T

就地计算 TensorDict 每个元素的 erfc() 值。

eval() T

将模块设置为评估模式。

这仅对某些模块有效。有关特定模块在训练/评估模式下的行为细节,请参阅其文档,如果它们受影响,例如 DropoutBatchNorm 等。

这等效于 self.train(False)

请参阅 局部禁用梯度计算,了解 .eval() 与可能与其混淆的几种类似机制之间的比较。

返回值::

self

返回类型:

模块

exclude(*keys: NestedKey, inplace: bool = False) T

排除 tensordict 的键,并返回一个不包含这些条目的新 tensordict。

这些值不会被复制:对原始 tensordict 或新 tensordict 的任何一个张量进行就地修改,都会导致这两个 tensordict 发生变化。

参数:
  • *keys (str) – 要排除的键。

  • inplace (bool) – 如果为 True,则会就地修剪 tensordict。默认值为 False

返回值::

一个新的 tensordict(如果 inplace=True 则为同一个),不包含被排除的条目。

示例

>>> from tensordict import TensorDict
>>> td = TensorDict({"a": 0, "b": {"c": 1, "d": 2}}, [])
>>> td.exclude("a", ("b", "c"))
TensorDict(
    fields={
        b: TensorDict(
            fields={
                d: Tensor(shape=torch.Size([]), device=cpu, dtype=torch.int64, is_shared=False)},
            batch_size=torch.Size([]),
            device=None,
            is_shared=False)},
    batch_size=torch.Size([]),
    device=None,
    is_shared=False)
>>> td.exclude("a", "b")
TensorDict(
    fields={
    },
    batch_size=torch.Size([]),
    device=None,
    is_shared=False)
exp() T

计算 TensorDict 中每个元素的 exp() 值。

exp_() T

就地计算 TensorDict 中每个元素的 exp() 值。

expand(*args, **kwargs) T

根据 expand() 函数扩展 tensordict 中的每个张量,忽略特征维度。

支持使用可迭代对象指定形状。

示例

>>> td = TensorDict({
...     'a': torch.zeros(3, 4, 5),
...     'b': torch.zeros(3, 4, 10)}, batch_size=[3, 4])
>>> td_expand = td.expand(10, 3, 4)
>>> assert td_expand.shape == torch.Size([10, 3, 4])
>>> assert td_expand.get("a").shape == torch.Size([10, 3, 4, 5])
expand_as(other: TensorDictBase | torch.Tensor) TensorDictBase

将 tensordict 的形状广播到 other 的形状并相应地扩展它。

如果输入是张量集合(tensordict 或 tensorclass),则叶节点将一对一地扩展。

示例

>>> from tensordict import TensorDict
>>> import torch
>>> td0 = TensorDict({
...     "a": torch.ones(3, 1, 4),
...     "b": {"c": torch.ones(3, 2, 1, 4)}},
...     batch_size=[3],
... )
>>> td1 = TensorDict({
...     "a": torch.zeros(2, 3, 5, 4),
...     "b": {"c": torch.zeros(2, 3, 2, 6, 4)}},
...     batch_size=[2, 3],
... )
>>> expanded = td0.expand_as(td1)
>>> assert (expanded==1).all()
>>> print(expanded)
TensorDict(
    fields={
        a: Tensor(shape=torch.Size([2, 3, 5, 4]), device=cpu, dtype=torch.float32, is_shared=False),
        b: TensorDict(
            fields={
                c: Tensor(shape=torch.Size([2, 3, 2, 6, 4]), device=cpu, dtype=torch.float32, is_shared=False)},
            batch_size=torch.Size([2, 3]),
            device=None,
            is_shared=False)},
    batch_size=torch.Size([2, 3]),
    device=None,
    is_shared=False)
expm1() T

计算 TensorDict 中每个元素的 expm1() 值。

expm1_() T

就地计算 TensorDict 中每个元素的 expm1() 值。

extra_repr() str

设置模块的额外表示。

为了打印自定义的额外信息,您应该在自己的模块中重新实现此方法。单行和多行字符串都是可以接受的。

fill_(key: NestedKey, value: float | bool) T

用给定的标量值填充由键指向的张量。

参数:
  • key (str嵌套键) – 要填充的条目。

  • value (数字bool) – 用于填充的值。

返回值::

self

filter_empty_()

就地过滤掉所有空的 tensordict。

filter_non_tensor_data() T

过滤掉所有非张量数据。

flatten(start_dim=0, end_dim=- 1)

展平 tensordict 中的所有张量。

参数:
  • start_dim (int) – 要展平的第一个维度

  • end_dim (int) – 要展平的最后一个维度

示例

>>> td = TensorDict({
...     "a": torch.arange(60).view(3, 4, 5),
...     "b": torch.arange(12).view(3, 4)}, batch_size=[3, 4])
>>> td_flat = td.flatten(0, 1)
>>> td_flat.batch_size
torch.Size([12])
>>> td_flat["a"]
tensor([[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19],
        [20, 21, 22, 23, 24],
        [25, 26, 27, 28, 29],
        [30, 31, 32, 33, 34],
        [35, 36, 37, 38, 39],
        [40, 41, 42, 43, 44],
        [45, 46, 47, 48, 49],
        [50, 51, 52, 53, 54],
        [55, 56, 57, 58, 59]])
>>> td_flat["b"]
tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])
flatten_keys(separator: str = '.', inplace: bool = False) TensorDictBase

递归地将嵌套的 tensordict 转换为扁平化的 tensordict。

TensorDict 类型将丢失,结果将是一个简单的 TensorDict 实例。

参数:
  • separator (str, 可选) – 嵌套项之间的分隔符。

  • inplace (bool, 可选) – 如果为 True,则生成的 tensordict 将与调用所在的 tensordict 具有相同的标识。默认值为 False

  • is_leaf (可调用, 可选) – 一个对类类型进行调用的函数,返回一个布尔值,指示该类是否要被视为叶节点。

示例

>>> data = TensorDict({"a": 1, ("b", "c"): 2, ("e", "f", "g"): 3}, batch_size=[])
>>> data.flatten_keys(separator=" - ")
TensorDict(
    fields={
        a: Tensor(shape=torch.Size([]), device=cpu, dtype=torch.int64, is_shared=False),
        b - c: Tensor(shape=torch.Size([]), device=cpu, dtype=torch.int64, is_shared=False),
        e - f - g: Tensor(shape=torch.Size([]), device=cpu, dtype=torch.int64, is_shared=False)},
    batch_size=torch.Size([]),
    device=None,
    is_shared=False)

此方法和 unflatten_keys() 在处理状态字典时特别有用,因为它们使您可以将扁平字典无缝转换为模拟模型结构的数据结构。

示例

>>> model = torch.nn.Sequential(torch.nn.Linear(3 ,4))
>>> ddp_model = torch.ao.quantization.QuantWrapper(model)
>>> state_dict = TensorDict(ddp_model.state_dict(), batch_size=[]).unflatten_keys(".")
>>> print(state_dict)
TensorDict(
    fields={
        module: TensorDict(
            fields={
                0: TensorDict(
                    fields={
                        bias: Tensor(shape=torch.Size([4]), device=cpu, dtype=torch.float32, is_shared=False),
                        weight: Tensor(shape=torch.Size([4, 3]), device=cpu, dtype=torch.float32, is_shared=False)},
                    batch_size=torch.Size([]),
                    device=None,
                    is_shared=False)},
            batch_size=torch.Size([]),
            device=None,
            is_shared=False)},
    batch_size=torch.Size([]),
    device=None,
    is_shared=False)
>>> model_state_dict = state_dict.get("module")
>>> print(model_state_dict)
TensorDict(
    fields={
        0: TensorDict(
            fields={
                bias: Tensor(shape=torch.Size([4]), device=cpu, dtype=torch.float32, is_shared=False),
                weight: Tensor(shape=torch.Size([4, 3]), device=cpu, dtype=torch.float32, is_shared=False)},
            batch_size=torch.Size([]),
            device=None,
            is_shared=False)},
    batch_size=torch.Size([]),
    device=None,
    is_shared=False)
>>> model.load_state_dict(dict(model_state_dict.flatten_keys(".")))
float()

将所有张量转换为 torch.float

float16()

将所有张量转换为 torch.float16

float32()

将所有张量转换为 torch.float32

float64()

将所有张量转换为 torch.float64

floor() T

计算 TensorDict 中每个元素的 floor() 值。

floor_() T

就地计算 TensorDict 中每个元素的 floor() 值。

forward(*input: Any) None

定义每次调用时执行的计算。

应由所有子类覆盖。

注意

虽然前向传播的配方需要在这个函数中定义,但是之后应该调用Module 实例,而不是这个函数,因为前者负责运行注册的钩子,而后者会静默地忽略它们。

frac() T

计算 TensorDict 中每个元素的frac() 值。

frac_() T

就地计算 TensorDict 中每个元素的frac() 值。

classmethod from_dict(*args, **kwargs)

返回一个从字典或另一个TensorDict 创建的 TensorDict。

如果未指定batch_size,则返回可能的最大批量大小。

此函数也适用于嵌套字典,或者可以用于确定嵌套 tensordict 的批量大小。

参数:
  • input_dict (dictionary, optional) – 用作数据源的字典(支持嵌套键)。

  • batch_size (iterable of int, optional) – tensordict 的批量大小。

  • device (torch.device or compatible type, optional) – TensorDict 的设备。

  • batch_dims (int, optional) – batch_dims(即要考虑的用于batch_size 的前导维度的数量)。与batch_size 互斥。请注意,这是 tensordict 的 __最大__ 批量维数,允许使用更小的数字。

  • names (list of str, optional) – tensordict 的维度名称。

示例

>>> input_dict = {"a": torch.randn(3, 4), "b": torch.randn(3)}
>>> print(TensorDict.from_dict(input_dict))
TensorDict(
    fields={
        a: Tensor(shape=torch.Size([3, 4]), device=cpu, dtype=torch.float32, is_shared=False),
        b: Tensor(shape=torch.Size([3]), device=cpu, dtype=torch.float32, is_shared=False)},
    batch_size=torch.Size([3]),
    device=None,
    is_shared=False)
>>> # nested dict: the nested TensorDict can have a different batch-size
>>> # as long as its leading dims match.
>>> input_dict = {"a": torch.randn(3), "b": {"c": torch.randn(3, 4)}}
>>> print(TensorDict.from_dict(input_dict))
TensorDict(
    fields={
        a: Tensor(shape=torch.Size([3]), device=cpu, dtype=torch.float32, is_shared=False),
        b: TensorDict(
            fields={
                c: Tensor(shape=torch.Size([3, 4]), device=cpu, dtype=torch.float32, is_shared=False)},
            batch_size=torch.Size([3, 4]),
            device=None,
            is_shared=False)},
    batch_size=torch.Size([3]),
    device=None,
    is_shared=False)
>>> # we can also use this to work out the batch sie of a tensordict
>>> input_td = TensorDict({"a": torch.randn(3), "b": {"c": torch.randn(3, 4)}}, [])
>>> print(TensorDict.from_dict(input_td))
TensorDict(
    fields={
        a: Tensor(shape=torch.Size([3]), device=cpu, dtype=torch.float32, is_shared=False),
        b: TensorDict(
            fields={
                c: Tensor(shape=torch.Size([3, 4]), device=cpu, dtype=torch.float32, is_shared=False)},
            batch_size=torch.Size([3, 4]),
            device=None,
            is_shared=False)},
    batch_size=torch.Size([3]),
    device=None,
    is_shared=False)
from_dict_instance(input_dict, batch_size=None, device=None, batch_dims=None)

from_dict() 的实例方法版本。

from_dict() 不同,此方法将尝试在现有树中保留 tensordict 类型(对于任何现有的叶节点)。

示例

>>> from tensordict import TensorDict, tensorclass
>>> import torch
>>>
>>> @tensorclass
>>> class MyClass:
...     x: torch.Tensor
...     y: int
>>>
>>> td = TensorDict({"a": torch.randn(()), "b": MyClass(x=torch.zeros(()), y=1)})
>>> print(td.from_dict_instance(td.to_dict()))
TensorDict(
    fields={
        a: Tensor(shape=torch.Size([]), device=cpu, dtype=torch.float32, is_shared=False),
        b: MyClass(
            x=Tensor(shape=torch.Size([]), device=cpu, dtype=torch.float32, is_shared=False),
            y=Tensor(shape=torch.Size([]), device=cpu, dtype=torch.int64, is_shared=False),
            batch_size=torch.Size([]),
            device=None,
            is_shared=False)},
    batch_size=torch.Size([]),
    device=None,
    is_shared=False)
>>> print(td.from_dict(td.to_dict()))
TensorDict(
    fields={
        a: Tensor(shape=torch.Size([]), device=cpu, dtype=torch.float32, is_shared=False),
        b: TensorDict(
            fields={
                x: Tensor(shape=torch.Size([]), device=cpu, dtype=torch.float32, is_shared=False),
                y: Tensor(shape=torch.Size([]), device=cpu, dtype=torch.int64, is_shared=False)},
            batch_size=torch.Size([]),
            device=None,
            is_shared=False)},
    batch_size=torch.Size([]),
    device=None,
    is_shared=False)
classmethod from_h5(filename, mode='r')

从 h5 文件创建 PersistentTensorDict。

此函数将自动确定每个嵌套 tensordict 的批量大小。

参数:
  • filename (str) – h5 文件的路径。

  • mode (str, optional) – 读取模式。默认为"r"

classmethod from_module(module, as_module: bool = False, lock: bool = True, use_state_dict: bool = False)

将模块的参数和缓冲区复制到 tensordict 中。

参数:
  • module (nn.Module) – 要获取参数的模块。

  • as_module (bool, optional) – 如果为True,将返回一个TensorDictParams 实例,可用于在torch.nn.Module 中存储参数。默认为False

  • lock (bool, optional) – 如果为True,则生成的 tensordict 将被锁定。默认为True

  • use_state_dict (bool, optional) –

    如果为True,将使用模块的 state-dict 并将其展开到具有模型树结构的 TensorDict 中。默认为False。.. note

    This is particularly useful when state-dict hooks have to be
    used.
    

示例

>>> from torch import nn
>>> module = nn.TransformerDecoder(
...     decoder_layer=nn.TransformerDecoderLayer(nhead=4, d_model=4),
...     num_layers=1)
>>> params = TensorDict.from_module(module)
>>> print(params["layers", "0", "linear1"])
TensorDict(
    fields={
        bias: Parameter(shape=torch.Size([2048]), device=cpu, dtype=torch.float32, is_shared=False),
        weight: Parameter(shape=torch.Size([2048, 4]), device=cpu, dtype=torch.float32, is_shared=False)},
    batch_size=torch.Size([]),
    device=None,
    is_shared=False)
classmethod from_modules(*modules, as_module: bool = False, lock: bool = True, use_state_dict: bool = False, lazy_stack: bool = False, expand_identical: bool = False)

通过 vmap 获取多个模块的参数,用于 ensemble 学习或期望应用的特征。

参数:

modules (sequence of nn.Module) – 要获取参数的模块。如果模块的结构不同,则需要懒加载堆栈(请参阅下面的lazy_stack 参数)。

关键字参数:
  • as_module (bool, optional) – 如果为True,将返回一个TensorDictParams 实例,可用于在torch.nn.Module 中存储参数。默认为False

  • lock (bool, optional) – 如果为True,则生成的 tensordict 将被锁定。默认为True

  • use_state_dict (bool, optional) –

    如果为True,将使用模块的 state-dict 并将其展开到具有模型树结构的 TensorDict 中。默认为False。.. note

    This is particularly useful when state-dict hooks have to be
    used.
    

  • lazy_stack (bool, optional) –

    参数是密集堆栈还是懒加载堆栈。默认为False(密集堆栈)。

    注意

    lazy_stackas_module 是互斥的功能。

    警告

    懒加载输出和非懒加载输出之间存在关键区别,非懒加载输出将使用所需的批量大小重新实例化参数,而lazy_stack 只会将参数表示为懒加载堆栈。这意味着,当lazy_stack=True 时,可以安全地将原始参数传递给优化器,而当将其设置为True 时,则需要传递新参数。

    警告

    虽然使用懒惰堆栈来保存原始参数引用可能很诱人,但请记住,懒惰堆栈每次调用 get() 时都会执行堆栈操作。这将需要内存(参数大小的 N 倍,如果构建图则更多)和时间来计算。这也意味着优化器将包含更多参数,并且像 step()zero_grad() 这样的操作执行起来会更慢。一般来说,lazy_stack 应该保留给极少数的用例。

  • expand_identical (bool, optional) – 如果为 True 并且同一个参数(相同身份)被堆叠到自身,则将返回此参数的扩展版本。当 lazy_stack=True 时,此参数会被忽略。

示例

>>> from torch import nn
>>> from tensordict import TensorDict
>>> torch.manual_seed(0)
>>> empty_module = nn.Linear(3, 4, device="meta")
>>> n_models = 2
>>> modules = [nn.Linear(3, 4) for _ in range(n_models)]
>>> params = TensorDict.from_modules(*modules)
>>> print(params)
TensorDict(
    fields={
        bias: Parameter(shape=torch.Size([2, 4]), device=cpu, dtype=torch.float32, is_shared=False),
        weight: Parameter(shape=torch.Size([2, 4, 3]), device=cpu, dtype=torch.float32, is_shared=False)},
    batch_size=torch.Size([2]),
    device=None,
    is_shared=False)
>>> # example of batch execution
>>> def exec_module(params, x):
...     with params.to_module(empty_module):
...         return empty_module(x)
>>> x = torch.randn(3)
>>> y = torch.vmap(exec_module, (0, None))(params, x)
>>> assert y.shape == (n_models, 4)
>>> # since lazy_stack = False, backprop leaves the original params untouched
>>> y.sum().backward()
>>> assert params["weight"].grad.norm() > 0
>>> assert modules[0].weight.grad is None

lazy_stack=True 时,情况略有不同

>>> params = TensorDict.from_modules(*modules, lazy_stack=True)
>>> print(params)
LazyStackedTensorDict(
    fields={
        bias: Tensor(shape=torch.Size([2, 4]), device=cpu, dtype=torch.float32, is_shared=False),
        weight: Tensor(shape=torch.Size([2, 4, 3]), device=cpu, dtype=torch.float32, is_shared=False)},
    exclusive_fields={
    },
    batch_size=torch.Size([2]),
    device=None,
    is_shared=False,
    stack_dim=0)
>>> # example of batch execution
>>> y = torch.vmap(exec_module, (0, None))(params, x)
>>> assert y.shape == (n_models, 4)
>>> y.sum().backward()
>>> assert modules[0].weight.grad is not None
classmethod from_namedtuple(named_tuple, *, auto_batch_size: bool = False)

将命名元组递归地转换为 TensorDict。

关键字参数:

auto_batch_size (bool, optional) – 如果为 True,则会自动计算批次大小。默认为 False

示例

>>> from tensordict import TensorDict
>>> import torch
>>> data = TensorDict({
...     "a_tensor": torch.zeros((3)),
...     "nested": {"a_tensor": torch.zeros((3)), "a_string": "zero!"}}, [3])
>>> nt = data.to_namedtuple()
>>> print(nt)
GenericDict(a_tensor=tensor([0., 0., 0.]), nested=GenericDict(a_tensor=tensor([0., 0., 0.]), a_string='zero!'))
>>> TensorDict.from_namedtuple(nt, auto_batch_size=True)
TensorDict(
    fields={
        a_tensor: Tensor(shape=torch.Size([3]), device=cpu, dtype=torch.float32, is_shared=False),
        nested: TensorDict(
            fields={
                a_string: NonTensorData(data=zero!, batch_size=torch.Size([3]), device=None),
                a_tensor: Tensor(shape=torch.Size([3]), device=cpu, dtype=torch.float32, is_shared=False)},
            batch_size=torch.Size([3]),
            device=None,
            is_shared=False)},
    batch_size=torch.Size([3]),
    device=None,
    is_shared=False)
classmethod from_pytree(pytree, *, batch_size: torch.Size | None = None, auto_batch_size: bool = False, batch_dims: int | None = None)

将 pytree 转换为 TensorDict 实例。

此方法旨在尽可能地保持 pytree 的嵌套结构。

添加非张量键以跟踪每个级别的身份,提供内置的 pytree-to-tensordict 双射转换 API。

目前接受的类包括列表、元组、命名元组和字典。

注意

对于字典,非 NestedKey 键将作为 NonTensorData 实例单独注册。

注意

可张量化类型(如 int、float 或 np.ndarray)将被转换为 torch.Tensor 实例。请注意,此转换是满射的:将 tensordict 转换回 pytree 将无法恢复原始类型。

示例

>>> # Create a pytree with tensor leaves, and one "weird"-looking dict key
>>> class WeirdLookingClass:
...     pass
...
>>> weird_key = WeirdLookingClass()
>>> # Make a pytree with tuple, lists, dict and namedtuple
>>> pytree = (
...     [torch.randint(10, (3,)), torch.zeros(2)],
...     {
...         "tensor": torch.randn(
...             2,
...         ),
...         "td": TensorDict({"one": 1}),
...         weird_key: torch.randint(10, (2,)),
...         "list": [1, 2, 3],
...     },
...     {"named_tuple": TensorDict({"two": torch.ones(1) * 2}).to_namedtuple()},
... )
>>> # Build a TensorDict from that pytree
>>> td = TensorDict.from_pytree(pytree)
>>> # Recover the pytree
>>> pytree_recon = td.to_pytree()
>>> # Check that the leaves match
>>> def check(v1, v2):
>>>     assert (v1 == v2).all()
>>>
>>> torch.utils._pytree.tree_map(check, pytree, pytree_recon)
>>> assert weird_key in pytree_recon[1]
classmethod fromkeys(keys: List[NestedKey], value: Any = 0)

从键列表和单个值创建 tensordict。

参数:
  • keys (list of NestedKey) – 指定新字典键的可迭代对象。

  • value (compatible type, optional) – 所有键的值。默认为 0

gather(dim: int, index: Tensor, out: T | None = None) T

沿 dim 指定的轴收集值。

参数:
  • dim (int) – 要收集元素的维度。

  • index (torch.Tensor) – 一个长张量,其维度数与 tensordict 的维度数匹配,只有两个维度之间的差异(收集维度)不同。其元素表示要沿所需维度收集的索引。

  • out (TensorDictBase, optional) – 目标 tensordict。它必须与索引具有相同的形状。

示例

>>> td = TensorDict(
...     {"a": torch.randn(3, 4, 5),
...      "b": TensorDict({"c": torch.zeros(3, 4, 5)}, [3, 4, 5])},
...     [3, 4])
>>> index = torch.randint(4, (3, 2))
>>> td_gather = td.gather(dim=1, index=index)
>>> print(td_gather)
TensorDict(
    fields={
        a: Tensor(shape=torch.Size([3, 2, 5]), device=cpu, dtype=torch.float32, is_shared=False),
        b: TensorDict(
            fields={
                c: Tensor(shape=torch.Size([3, 2, 5]), device=cpu, dtype=torch.float32, is_shared=False)},
            batch_size=torch.Size([3, 2, 5]),
            device=None,
            is_shared=False)},
    batch_size=torch.Size([3, 2]),
    device=None,
    is_shared=False)

Gather 保持维度名称。

示例

>>> td.names = ["a", "b"]
>>> td_gather = td.gather(dim=1, index=index)
>>> td_gather.names
["a", "b"]
gather_and_stack(dst: int, group: 'dist.ProcessGroup' | None = None) T | None

从各个工作进程收集 tensordict,并将它们堆叠到目标工作进程中的自身。

参数:
  • dst (int) – 目标工作进程的排名, gather_and_stack() 将在该工作进程中被调用。

  • group (torch.distributed.ProcessGroup, optional) – 如果设置,将使用指定的进程组进行通信。否则,将使用默认进程组。默认为 None

示例

>>> from torch import multiprocessing as mp
>>> from tensordict import TensorDict
>>> import torch
>>>
>>> def client():
...     torch.distributed.init_process_group(
...         "gloo",
...         rank=1,
...         world_size=2,
...         init_method=f"tcp://localhost:10003",
...     )
...     # Create a single tensordict to be sent to server
...     td = TensorDict(
...         {("a", "b"): torch.randn(2),
...          "c": torch.randn(2)}, [2]
...     )
...     td.gather_and_stack(0)
...
>>> def server():
...     torch.distributed.init_process_group(
...         "gloo",
...         rank=0,
...         world_size=2,
...         init_method=f"tcp://localhost:10003",
...     )
...     # Creates the destination tensordict on server.
...     # The first dim must be equal to world_size-1
...     td = TensorDict(
...         {("a", "b"): torch.zeros(2),
...          "c": torch.zeros(2)}, [2]
...     ).expand(1, 2).contiguous()
...     td.gather_and_stack(0)
...     assert td["a", "b"] != 0
...     print("yuppie")
...
>>> if __name__ == "__main__":
...     mp.set_start_method("spawn")
...
...     main_worker = mp.Process(target=server)
...     secondary_worker = mp.Process(target=client)
...
...     main_worker.start()
...     secondary_worker.start()
...
...     main_worker.join()
...     secondary_worker.join()
get(key: NestedKey, default: Any = _NoDefault.ZERO) Tensor

获取使用输入键存储的值。

参数:
  • key (str, tuple of str) – 要查询的键。如果为字符串元组,则等效于 getattr 的链式调用。

  • default – 如果 tensordict 中未找到键,则为默认值。

示例

>>> td = TensorDict({"x": 1}, batch_size=[])
>>> td.get("x")
tensor(1)
>>> td.get("y", default=None)
None
get_at(key: NestedKey, index: Union[None, int, slice, str, Tensor, List[Any], Tuple[Any, ...]], default: Tensor = _NoDefault.ZERO) Tensor

从键key的索引idx处获取 tensordict 的值。

参数:
  • key (str, tuple of str) – 要检索的键。

  • index (int, slice, torch.Tensor, iterable) – 张量的索引。

  • default (torch.Tensor) – 如果 tensordict 中不存在键,则返回的默认值。

返回值::

索引后的张量。

示例

>>> td = TensorDict({"x": torch.arange(3)}, batch_size=[])
>>> td.get_at("x", index=1)
tensor(1)
get_buffer(target: str) Tensor

如果存在,则返回由 target 给出的缓冲区,否则抛出错误。

有关此方法功能的更详细说明以及如何正确指定 target 的方法,请参阅 get_submodule 的文档字符串。

参数:

target – 要查找的缓冲区的完全限定字符串名称。(有关如何指定完全限定字符串,请参阅 get_submodule。)

返回值::

target 引用的缓冲区

返回类型:

torch.Tensor

引发:

AttributeError – 如果目标字符串引用无效路径或解析为非缓冲区

get_extra_state() Any

返回要包含在模块的 state_dict 中的任何额外状态。

如果您需要存储额外状态,请实现此方法和相应的 set_extra_state()。此函数在构建模块的 state_dict() 时被调用。

请注意,额外状态应该是可腌制的,以确保 state_dict 的序列化工作正常。我们只为序列化张量提供向后兼容性保证;如果其他对象的序列化腌制形式发生变化,则可能会破坏向后兼容性。

返回值::

要存储在模块的 state_dict 中的任何额外状态

返回类型:

对象

get_item_shape(key: NestedKey)

返回条目的形状,可能避免循环到 get()

get_non_tensor(key: NestedKey, default=_NoDefault.ZERO)

获取非张量值(如果存在),或者获取 default(如果未找到非张量值)。

此方法对张量/TensorDict 值具有鲁棒性,这意味着如果收集到的值是常规张量,它也将被返回(尽管此方法会带来一些开销,并且不应超出其自然范围使用)。

有关如何在 tensordict 中设置非张量值的更多信息,请参阅 set_non_tensor()

参数:
返回值:tensordict.tensorclass.NonTensorData 的内容,

或者如果它不是 tensordict.tensorclass.NonTensorData,则返回对应于 key 的条目(如果找不到条目,则返回 default)。

示例

>>> data = TensorDict({}, batch_size=[])
>>> data.set_non_tensor(("nested", "the string"), "a string!")
>>> assert data.get_non_tensor(("nested", "the string")) == "a string!"
>>> # regular `get` works but returns a NonTensorData object
>>> data.get(("nested", "the string"))
NonTensorData(
    data='a string!',
    batch_size=torch.Size([]),
    device=None,
    is_shared=False)
get_parameter(target: str) Parameter

如果存在,则返回由 target 给出的参数,否则抛出错误。

有关此方法功能的更详细说明以及如何正确指定 target 的方法,请参阅 get_submodule 的文档字符串。

参数:

target – 要查找的参数的完全限定字符串名称。(有关如何指定完全限定字符串,请参阅 get_submodule。)

返回值::

target 引用的参数

返回类型:

torch.nn.Parameter

引发:

AttributeError – 如果目标字符串引用无效路径或解析为非 nn.Parameter

get_submodule(target: str) Module

如果存在,则返回由 target 给出的子模块,否则抛出错误。

例如,假设您有一个 nn.Module A,它看起来像这样

A(
    (net_b): Module(
        (net_c): Module(
            (conv): Conv2d(16, 33, kernel_size=(3, 3), stride=(2, 2))
        )
        (linear): Linear(in_features=100, out_features=200, bias=True)
    )
)

(该图显示了一个 nn.Module AA 有一个嵌套的子模块 net_b,它本身有两个子模块 net_clinearnet_c 然后有一个子模块 conv。)

要检查我们是否拥有 linear 子模块,我们将调用 get_submodule("net_b.linear")。要检查我们是否拥有 conv 子模块,我们将调用 get_submodule("net_b.net_c.conv")

get_submodule 的运行时间受 target 中模块嵌套程度的限制。对 named_modules 的查询可以实现相同的结果,但它在传递模块数量方面是 O(N)。因此,为了简单地检查某个子模块是否存在,应始终使用 get_submodule

参数:

target – 要查找的子模块的完全限定字符串名称。(有关如何指定完全限定字符串,请参阅上面的示例。)

返回值::

target 引用的子模块

返回类型:

torch.nn.Module

引发:

AttributeError – 如果目标字符串引用无效路径或解析为非 nn.Module

property grad

返回一个 tensordict,其中包含叶张量的 .grad 属性。

half()

将所有张量转换为 torch.half

int()

将所有张量转换为 torch.int

int16()

将所有张量转换为 torch.int16

int32()

将所有张量转换为 torch.int32

int64()

将所有张量转换为 torch.int64

int8()

将所有张量转换为 torch.int8

ipu(device: Optional[Union[int, device]] = None) T

将所有模型参数和缓冲区移动到 IPU 上。

这也使关联的参数和缓冲区成为不同的对象。因此,如果模块在优化时将驻留在 IPU 上,则应在构建优化器之前调用它。

注意

此方法将就地修改模块。

参数:

device (int, optional) – 如果指定,所有参数都将复制到该设备

返回值::

self

返回类型:

模块

irecv(src: int, *, group: 'dist.ProcessGroup' | None = None, return_premature: bool = False, init_tag: int = 0, pseudo_rand: bool = False) tuple[int, list[torch.Future]] | list[torch.Future] | None

接收 tensordict 的内容并异步更新内容。

有关上下文的示例,请查看 isend() 方法中的示例。

参数:

src (int) – 源工作者的等级。

关键字参数:
  • group (torch.distributed.ProcessGroup, optional) – 如果设置,将使用指定的进程组进行通信。否则,将使用默认进程组。默认为 None

  • return_premature (bool) – 如果为 True,则返回要等待的期货列表,直到 tensordict 更新。默认为 False,即在调用中等待直到更新完成。

  • init_tag (int) – 源工作者使用的 init_tag

  • pseudo_rand (bool) – 如果为 True,则标签序列将为伪随机,允许从不同节点发送多个数据而不会重叠。请注意,这些伪随机数的生成成本很高(1e-5 秒/数),这意味着它可能会减慢算法的运行时间。此值必须与传递给 isend() 的值匹配。默认为 False

返回值::

如果 return_premature=True,则返回要等待的期货列表

直到 tensordict 更新。

is_consolidated()

检查 TensorDict 是否具有合并的存储。

is_contiguous(*args, **kwargs)

返回一个布尔值,指示所有张量是否都是连续的。

is_empty() bool

检查 tensordict 是否包含任何叶子。

property is_memmap: bool

检查 tensordict 是否是内存映射的。

如果 TensorDict 实例是内存映射的,则它被锁定(条目不能重命名、删除或添加)。如果 TensorDict 是使用所有都是内存映射的张量创建的,这并不意味着 is_memmap 将返回 True(因为新张量可能或可能不为内存映射)。只有在调用 tensordict.memmap_() 时,tensordict 才会被视为内存映射的。

对于 CUDA 设备上的 tensordict,这始终为 True

property is_shared: bool

检查 tensordict 是否位于共享内存中。

如果 TensorDict 实例位于共享内存中,则它被锁定(条目不能重命名、删除或添加)。如果 TensorDict 是使用所有位于共享内存中的张量创建的,这并不意味着 is_shared 将返回 True(因为新张量可能或可能不位于共享内存中)。只有在调用 tensordict.share_memory_() 或将 tensordict 放置在默认情况下内容共享的设备(例如,"cuda")上时,tensordict 才会被视为位于共享内存中。

对于 CUDA 设备上的 tensordict,这始终为 True

isend(dst: int, *, group: 'dist.ProcessGroup' | None = None, init_tag: int = 0, pseudo_rand: bool = False) int

异步发送张量字典的内容。

参数:

dst (int) – 目标工作者的排名,内容应该发送到那里。

关键字参数:
  • group (torch.distributed.ProcessGroup, optional) – 如果设置,将使用指定的进程组进行通信。否则,将使用默认进程组。默认为 None

  • init_tag (int) – 用于标记张量的初始标签。请注意,这将根据张量字典中包含的张量数量增加。

  • pseudo_rand (bool) – 如果为 True,标签序列将是伪随机的,允许从不同节点发送多个数据而不会重叠。请注意,生成这些伪随机数很昂贵(1e-5 秒/数),这意味着它可能会降低算法的运行时间。默认为 False

示例

>>> import torch
>>> from tensordict import TensorDict
>>> from torch import multiprocessing as mp
>>> def client():
...     torch.distributed.init_process_group(
...         "gloo",
...         rank=1,
...         world_size=2,
...         init_method=f"tcp://localhost:10003",
...     )
...
...     td = TensorDict(
...         {
...             ("a", "b"): torch.randn(2),
...             "c": torch.randn(2, 3),
...             "_": torch.ones(2, 1, 5),
...         },
...         [2],
...     )
...     td.isend(0)
...
>>>
>>> def server(queue, return_premature=True):
...     torch.distributed.init_process_group(
...         "gloo",
...         rank=0,
...         world_size=2,
...         init_method=f"tcp://localhost:10003",
...     )
...     td = TensorDict(
...         {
...             ("a", "b"): torch.zeros(2),
...             "c": torch.zeros(2, 3),
...             "_": torch.zeros(2, 1, 5),
...         },
...         [2],
...     )
...     out = td.irecv(1, return_premature=return_premature)
...     if return_premature:
...         for fut in out:
...             fut.wait()
...     assert (td != 0).all()
...     queue.put("yuppie")
...
>>>
>>> if __name__ == "__main__":
...     queue = mp.Queue(1)
...     main_worker = mp.Process(
...         target=server,
...         args=(queue, )
...         )
...     secondary_worker = mp.Process(target=client)
...
...     main_worker.start()
...     secondary_worker.start()
...     out = queue.get(timeout=10)
...     assert out == "yuppie"
...     main_worker.join()
...     secondary_worker.join()
isfinite() T

返回一个新的张量字典,其中包含布尔元素,表示每个元素是否有限。

当实数值不是 NaN、负无穷大或无穷大时,它们是有限的。当复数的实部和虚部都是有限的时,它们是有限的。

isnan() T

返回一个新的张量字典,其中包含布尔元素,表示输入的每个元素是否为 NaN。

当复数的实部或虚部为 NaN 时,它们被认为是 NaN。

isneginf() T

测试输入的每个元素是否为负无穷大。

isposinf() T

测试输入的每个元素是否为负无穷大。

isreal() T

返回一个新的张量字典,其中包含布尔元素,表示输入的每个元素是否为实数。

items(include_nested: bool = False, leaves_only: bool = False, is_leaf: Callable[[Type], bool] | None = None) Iterator[CompatibleType]

返回张量字典的键值对的生成器。

参数:
  • include_nested (bool, optional) – 如果为 True,则返回嵌套的值。默认为 False

  • leaves_only (bool, optional) – 如果为 False,则只返回叶子。默认为 False

  • is_leaf – 一个可选的可调用函数,用于指示某个类是否被认为是叶子。

keys(*args, **kwargs)

返回张量字典键的生成器。

参数:
  • include_nested (bool, optional) – 如果为 True,则返回嵌套的值。默认为 False

  • leaves_only (bool, optional) – 如果为 False,则只返回叶子。默认为 False

  • is_leaf – 一个可选的可调用函数,用于指示某个类是否被认为是叶子。

示例

>>> from tensordict import TensorDict
>>> data = TensorDict({"0": 0, "1": {"2": 2}}, batch_size=[])
>>> data.keys()
['0', '1']
>>> list(data.keys(leaves_only=True))
['0']
>>> list(data.keys(include_nested=True, leaves_only=True))
['0', '1', ('1', '2')]
classmethod lazy_stack(input, dim=0, *, out=None, **kwargs)

创建张量字典的延迟堆栈。

有关详细信息,请参见 lazy_stack()

lerp(end: TensorDictBase | torch.Tensor, weight: TensorDictBase | torch.Tensor | float)

根据标量或张量 weight 对两个张量 start(由 self 给出)和 end 进行线性插值。

\[\text{out}_i = \text{start}_i + \text{weight}_i \times (\text{end}_i - \text{start}_i)\]

startend 的形状必须可广播。如果 weight 是一个张量,那么 weightstartend 的形状必须可广播。

参数:
lerp_(end: TensorDictBase | float, weight: TensorDictBase | float)

lerp() 的就地版本。

lgamma() T

计算张量字典中每个元素的 lgamma() 值。

lgamma_() T

就地计算张量字典中每个元素的 lgamma() 值。

classmethod load(prefix: str | Path, *args, **kwargs) T

从磁盘加载一个tensordict。

此类方法是 load_memmap() 的代理。

load_(prefix: str | Path, *args, **kwargs)

在当前tensordict中从磁盘加载一个tensordict。

此类方法是 load_memmap_() 的代理。

classmethod load_memmap(prefix: str | Path, device: torch.device | None = None, non_blocking: bool = False, *, out: TensorDictBase | None = None) T

从磁盘加载一个内存映射的tensordict。

参数:
  • prefix (str or Path to folder) – 保存的tensordict应获取的文件夹路径。

  • device (torch.device or equivalent, optional) – 如果提供,数据将异步转换为该设备。 支持“meta” 设备,在这种情况下,数据不会加载,而是创建一组空的“元”张量。 这对于了解模型的总大小和结构而不实际打开任何文件很有用。

  • non_blocking (bool, optional) – 如果为 True,则在设备上加载张量后不会调用同步。 默认值为 False

  • out (TensorDictBase, optional) – 数据应该写入的可选 tensordict。

示例

>>> from tensordict import TensorDict
>>> td = TensorDict.fromkeys(["a", "b", "c", ("nested", "e")], 0)
>>> td.memmap("./saved_td")
>>> td_load = TensorDict.load_memmap("./saved_td")
>>> assert (td == td_load).all()

此方法还允许加载嵌套的tensordicts。

>>> nested = TensorDict.load_memmap("./saved_td/nested")
>>> assert nested["e"] == 0

tensordict 也可以加载到“meta”设备上,或者作为假张量。

>>> import tempfile
>>> td = TensorDict({"a": torch.zeros(()), "b": {"c": torch.zeros(())}})
>>> with tempfile.TemporaryDirectory() as path:
...     td.save(path)
...     td_load = TensorDict.load_memmap(path, device="meta")
...     print("meta:", td_load)
...     from torch._subclasses import FakeTensorMode
...     with FakeTensorMode():
...         td_load = TensorDict.load_memmap(path)
...         print("fake:", td_load)
meta: TensorDict(
    fields={
        a: Tensor(shape=torch.Size([]), device=meta, dtype=torch.float32, is_shared=False),
        b: TensorDict(
            fields={
                c: Tensor(shape=torch.Size([]), device=meta, dtype=torch.float32, is_shared=False)},
            batch_size=torch.Size([]),
            device=meta,
            is_shared=False)},
    batch_size=torch.Size([]),
    device=meta,
    is_shared=False)
fake: TensorDict(
    fields={
        a: FakeTensor(shape=torch.Size([]), device=cpu, dtype=torch.float32, is_shared=False),
        b: TensorDict(
            fields={
                c: FakeTensor(shape=torch.Size([]), device=cpu, dtype=torch.float32, is_shared=False)},
            batch_size=torch.Size([]),
            device=cpu,
            is_shared=False)},
    batch_size=torch.Size([]),
    device=cpu,
    is_shared=False)
load_memmap_(prefix: str | Path)

在调用load_memmap_ 的 tensordict 内加载内存映射的 tensordict 的内容。

有关更多信息,请参见 load_memmap()

load_state_dict(state_dict: OrderedDict[str, Any], strict=True, assign=False)

state_dict() 中格式化的 state-dict 加载到 tensordict 中。

参数:
  • state_dict (OrderedDict) – 要复制的 state_dict。

  • strict (bool, optional) – 是否严格强制执行 state_dict 中的键与此 tensordict 的 torch.nn.Module.state_dict() 函数返回的键匹配。 默认值:True

  • assign (bool, optional) – 是否将 state 字典中的项目分配到 tensordict 中的对应键,而不是将它们就地复制到 tensordict 的当前张量中。 当为 False 时,当前模块中张量的属性将被保留,而当为 True 时,state 字典中张量的属性将被保留。 默认值:False

  • from_flatten (bool, optional) – 如果为 True,则假设输入的 state_dict 是扁平化的。 默认值为 False

示例

>>> data = TensorDict({"1": 1, "2": 2, "3": {"3": 3}}, [])
>>> data_zeroed = TensorDict({"1": 0, "2": 0, "3": {"3": 0}}, [])
>>> sd = data.state_dict()
>>> data_zeroed.load_state_dict(sd)
>>> print(data_zeroed["3", "3"])
tensor(3)
>>> # with flattening
>>> data_zeroed = TensorDict({"1": 0, "2": 0, "3": {"3": 0}}, [])
>>> data_zeroed.load_state_dict(data.state_dict(flatten=True), from_flatten=True)
>>> print(data_zeroed["3", "3"])
tensor(3)
lock_() T

锁定一个 tensordict,以防止非就地操作。

set()__setitem__()update()rename_key_() 或其他添加或删除条目的操作将被阻止。

此方法可以用作装饰器。

示例

>>> from tensordict import TensorDict
>>> td = TensorDict({"a": 1, "b": 2, "c": 3}, batch_size=[])
>>> with td.lock_():
...     assert td.is_locked
...     try:
...         td.set("d", 0) # error!
...     except RuntimeError:
...         print("td is locked!")
...     try:
...         del td["d"]
...     except RuntimeError:
...         print("td is locked!")
...     try:
...         td.rename_key_("a", "d")
...     except RuntimeError:
...         print("td is locked!")
...     td.set("a", 0, inplace=True)  # No storage is added, moved or removed
...     td.set_("a", 0) # No storage is added, moved or removed
...     td.update({"a": 0}, inplace=True)  # No storage is added, moved or removed
...     td.update_({"a": 0})  # No storage is added, moved or removed
>>> assert not td.is_locked
log() T

计算 TensorDict 中每个元素的 log() 值。

log10() T

计算 TensorDict 中每个元素的 log10() 值。

log10_() T

就地计算 TensorDict 中每个元素的 log10() 值。

log1p() T

计算 TensorDict 中每个元素的 log1p() 值。

log1p_() T

就地计算 TensorDict 中每个元素的 log1p() 值。

log2() T

计算 TensorDict 中每个元素的 log2() 值。

log2_() T

在 TensorDict 中就地计算每个元素的 log2() 值。

log_() T

在 TensorDict 中就地计算每个元素的 log() 值。

make_memmap(key: NestedKey, shape: torch.Size | torch.Tensor, *, dtype: torch.dtype | None = None) MemoryMappedTensor

使用形状和可能的类型创建空内存映射张量。

警告

此方法在设计上并非线程安全的。在多个节点上存在的内存映射 TensorDict 实例需要使用方法 memmap_refresh_() 更新。

写入现有条目将导致错误。

参数:
  • key (NestedKey) – 要写入的新条目的键。如果键已存在于 tensordict 中,则会引发异常。

  • shape (torch.Size等效, torch.Tensor 用于嵌套张量) – 要写入的张量的形状。

关键字参数:

dtype (torch.dtype, 可选) – 新张量的类型。

返回值::

一个新的内存映射张量。

make_memmap_from_storage(key: NestedKey, storage: torch.UntypedStorage, shape: torch.Size | torch.Tensor, *, dtype: torch.dtype | None = None) MemoryMappedTensor

使用存储、形状和可能的类型创建空内存映射张量。

警告

此方法在设计上并非线程安全的。在多个节点上存在的内存映射 TensorDict 实例需要使用方法 memmap_refresh_() 更新。

注意

如果存储具有关联的文件名,则它必须与新文件的文件名匹配。如果它没有关联的文件名,但 tensordict 具有关联的路径,则会导致异常。

参数:
  • key (NestedKey) – 要写入的新条目的键。如果键已存在于 tensordict 中,则会引发异常。

  • storage (torch.UntypedStorage) – 用于新的 MemoryMappedTensor 的存储。必须是物理内存存储。

  • shape (torch.Size等效, torch.Tensor 用于嵌套张量) – 要写入的张量的形状。

关键字参数:

dtype (torch.dtype, 可选) – 新张量的类型。

返回值::

一个具有给定存储的新内存映射张量。

make_memmap_from_tensor(key: NestedKey, tensor: Tensor, *, copy_data: bool = True) MemoryMappedTensor

使用张量创建空内存映射张量。

警告

此方法在设计上并非线程安全的。在多个节点上存在的内存映射 TensorDict 实例需要使用方法 memmap_refresh_() 更新。

如果 copy_dataTrue(即,存储不共享),则此方法始终复制存储内容。

参数:
  • key (NestedKey) – 要写入的新条目的键。如果键已存在于 tensordict 中,则会引发异常。

  • tensor (torch.Tensor) – 要在物理内存上复制的张量。

关键字参数:

copy_data (bool, 可选) – 如果 False,则新张量将共享输入的元数据,如形状和类型,但内容为空。默认为 True

返回值::

一个具有给定存储的新内存映射张量。

map(fn: Callable, dim: int = 0, num_workers: int = None, chunksize: int = None, num_chunks: int = None, pool: mp.Pool = None, generator: torch.Generator | None = None, max_tasks_per_child: int | None = None, worker_threads: int = 1, mp_start_method: str | None = None)

将函数映射到 tensordict 跨一个维度的拆分。

此方法将通过将 tensordict 实例分割成大小相等的 tensordict 并调度跨所需工作程序数量的操作来应用函数。

函数签名应为 Callabe[[TensorDict], Union[TensorDict, Tensor]]。输出必须支持 torch.cat() 操作。该函数必须可序列化。

参数:
  • fn (callable) – 应用于 tensordict 的函数。类似于 Callabe[[TensorDict], Union[TensorDict, Tensor]] 的签名受支持。

  • dim (int, optional) – tensordict 将要沿其进行分块的维度。

  • num_workers (int, optional) – 工作进程的数量。与 pool 相互排斥。如果没有提供,工作进程的数量将设置为可用 cpu 的数量。

关键字参数:
  • out (TensorDictBase, optional) – 输出的可选容器。它沿提供的 dim 的批次大小必须与 self.ndim 相匹配。如果它是共享或内存映射的 (is_shared()is_memmap() 返回 True),它将在远程进程中填充,避免数据向内传输。否则,self 片段中的数据将被发送到进程,在当前进程中收集,并原位写入 out

  • chunksize (int, optional) – 每个数据块的大小。chunksize 为 0 将沿所需维度解除 tensordict 的绑定,并在应用函数后重新堆叠它,而 chunksize>0 将拆分 tensordict 并调用 torch.cat() 在生成的 tensordict 列表上。如果没有提供,块的数量将等于工作进程的数量。对于非常大的 tensordict,如此大的块可能无法在内存中容纳以完成操作,可能需要更多块才能使操作实际可行。此参数与 num_chunks 相互排斥。

  • num_chunks (int, optional) – 将 tensordict 拆分为的块数。如果没有提供,块的数量将等于工作进程的数量。对于非常大的 tensordict,如此大的块可能无法在内存中容纳以完成操作,可能需要更多块才能使操作实际可行。此参数与 chunksize 相互排斥。

  • pool (mp.Pool, optional) – 用于执行作业的多进程池实例。如果没有提供,将在 map 方法中创建池。

  • generator (torch.Generator, optional) –

    用于播种的生成器。将从它生成一个基本种子,并且池的每个工作进程将使用提供的种子递增一个从 0num_workers 的唯一整数进行播种。如果没有提供生成器,将使用随机整数作为种子。要使用未播种的工作进程,应分别创建池并直接传递给 map()。.. 注意

    Caution should be taken when providing a low-valued seed as
    this can cause autocorrelation between experiments, example:
    if 8 workers are asked and the seed is 4, the workers seed will
    range from 4 to 11. If the seed is 5, the workers seed will range
    from 5 to 12. These two experiments will have an overlap of 7
    seeds, which can have unexpected effects on the results.
    

    注意

    播种工作进程的目的是让每个工作进程都有独立的种子,而不是在 map 方法的多次调用中获得可重复的结果。换句话说,两次实验可能会(也可能不会)返回不同的结果,因为无法知道哪个工作进程将选择哪个作业。但是,我们可以确保每个工作进程都有不同的种子,并且每个工作进程上的伪随机操作将是不相关的。

  • max_tasks_per_child (int, optional) – 每个子进程选择的作业的最大数量。默认为 None,即对作业数量没有限制。

  • worker_threads (int, optional) – 工作进程的线程数量。默认为 1

  • index_with_generator (bool, optional) – 如果为 True,tensordict 的拆分/分块将在查询期间完成,节省初始化时间。请注意,chunk()split() 比索引(在生成器中使用)效率更高,因此在初始化时间获得处理时间的收益可能会对总运行时间产生负面影响。默认为 False

  • pbar (bool, optional) – 如果为 True,将显示进度条。需要 tqdm 可用。默认为 False

  • mp_start_method (str, optional) – 多处理的启动方法。如果没有提供,将使用默认启动方法。接受的字符串为 "fork""spawn"。请记住,使用 "fork" 启动方法无法在进程之间共享 "cuda" 张量。如果传递了 poolmap 方法,这将不起作用。

示例

>>> import torch
>>> from tensordict import TensorDict
>>>
>>> def process_data(data):
...     data.set("y", data.get("x") + 1)
...     return data
>>> if __name__ == "__main__":
...     data = TensorDict({"x": torch.zeros(1, 1_000_000)}, [1, 1_000_000]).memmap_()
...     data = data.map(process_data, dim=1)
...     print(data["y"][:, :10])
...
tensor([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]])

注意

此方法在处理存储在磁盘上的大型数据集时特别有用(例如内存映射 tensordict),其中块将是原始数据的零拷贝切片,可以以几乎零成本传递给进程。这允许以低成本处理非常大的数据集(例如超过 Tb 大)。

map_iter(fn: Callable[[TensorDictBase], TensorDictBase | None], dim: int = 0, num_workers: int | None = None, *, shuffle: bool = False, chunksize: int | None = None, num_chunks: int | None = None, pool: mp.Pool | None = None, generator: torch.Generator | None = None, max_tasks_per_child: int | None = None, worker_threads: int = 1, index_with_generator: bool = True, pbar: bool = False, mp_start_method: str | None = None)

将一个函数映射到沿着一个维度迭代的 tensordict 的切片。

这是 map() 的可迭代版本。

此方法将通过将 tensordict 分成大小相等的 tensordict 并根据所需的工作人员数量调度操作,将一个函数应用于 tensordict 实例。它将一次返回一个结果。

函数签名应为 Callabe[[TensorDict], Union[TensorDict, Tensor]]。函数必须可序列化。

参数:
  • fn (callable) – 应用于 tensordict 的函数。类似于 Callabe[[TensorDict], Union[TensorDict, Tensor]] 的签名受支持。

  • dim (int, optional) – tensordict 将要沿其进行分块的维度。

  • num_workers (int, optional) – 工作进程的数量。与 pool 相互排斥。如果没有提供,工作进程的数量将设置为可用 cpu 的数量。

关键字参数:
  • shuffle (bool, optional) – 是否应该全局洗牌索引。如果为 True,则每个批次将包含非连续样本。如果 index_with_generator=False 并且 shuffle=True`,则会引发错误。默认为 False

  • chunksize (int, optional) – 每个数据块的大小。chunksize 为 0 将沿所需维度解除 tensordict 的绑定,并在应用函数后重新堆叠它,而 chunksize>0 将拆分 tensordict 并调用 torch.cat() 在生成的 tensordict 列表上。如果没有提供,块的数量将等于工作进程的数量。对于非常大的 tensordict,如此大的块可能无法在内存中容纳以完成操作,可能需要更多块才能使操作实际可行。此参数与 num_chunks 相互排斥。

  • num_chunks (int, optional) – 将 tensordict 拆分为的块数。如果没有提供,块的数量将等于工作进程的数量。对于非常大的 tensordict,如此大的块可能无法在内存中容纳以完成操作,可能需要更多块才能使操作实际可行。此参数与 chunksize 相互排斥。

  • pool (mp.Pool, optional) – 用于执行作业的多进程池实例。如果没有提供,将在 map 方法中创建池。

  • generator (torch.Generator, optional) –

    用于播种的生成器。将从它生成一个基本种子,并且池的每个工作进程将使用提供的种子递增一个从 0num_workers 的唯一整数进行播种。如果没有提供生成器,将使用随机整数作为种子。要使用未播种的工作进程,应分别创建池并直接传递给 map()。.. 注意

    Caution should be taken when providing a low-valued seed as
    this can cause autocorrelation between experiments, example:
    if 8 workers are asked and the seed is 4, the workers seed will
    range from 4 to 11. If the seed is 5, the workers seed will range
    from 5 to 12. These two experiments will have an overlap of 7
    seeds, which can have unexpected effects on the results.
    

    注意

    播种工作进程的目的是让每个工作进程都有独立的种子,而不是在 map 方法的多次调用中获得可重复的结果。换句话说,两次实验可能会(也可能不会)返回不同的结果,因为无法知道哪个工作进程将选择哪个作业。但是,我们可以确保每个工作进程都有不同的种子,并且每个工作进程上的伪随机操作将是不相关的。

  • max_tasks_per_child (int, optional) – 每个子进程选择的作业的最大数量。默认为 None,即对作业数量没有限制。

  • worker_threads (int, optional) – 工作进程的线程数量。默认为 1

  • index_with_generator (bool, optional) –

    如果为 True,则 tensordict 的分割/分块将在查询期间完成,从而节省初始化时间。请注意,chunk()split() 比索引(在生成器中使用)效率高得多,因此在初始化时获得处理时间的收益可能会对总运行时间产生负面影响。默认为 True

    注意

    index_with_generator 的默认值对于 map_itermap 不同,前者假设将 TensorDict 的分割版本存储在内存中代价很高。

  • pbar (bool, optional) – 如果为 True,将显示进度条。需要 tqdm 可用。默认为 False

  • mp_start_method (str, optional) – 多处理的启动方法。如果没有提供,将使用默认启动方法。接受的字符串为 "fork""spawn"。请记住,使用 "fork" 启动方法无法在进程之间共享 "cuda" 张量。如果传递了 poolmap 方法,这将不起作用。

示例

>>> import torch
>>> from tensordict import TensorDict
>>>
>>> def process_data(data):
...     data.unlock_()
...     data.set("y", data.get("x") + 1)
...     return data
>>> if __name__ == "__main__":
...     data = TensorDict({"x": torch.zeros(1, 1_000_000)}, [1, 1_000_000]).memmap_()
...     for sample in data.map_iter(process_data, dim=1, chunksize=5):
...         print(sample["y"])
...         break
...
tensor([[1., 1., 1., 1., 1.]])

注意

此方法在处理存储在磁盘上的大型数据集时特别有用(例如内存映射 tensordict),其中块将是原始数据的零拷贝切片,可以以几乎零成本传递给进程。这允许以低成本处理非常大的数据集(例如超过 Tb 大)。

注意

此函数可用于表示数据集并从中加载数据,以类似于 dataloader 的方式。

masked_fill(*args, **kwargs)

masked_fill 的非就地版本。

参数:
  • mask (boolean torch.Tensor) – 要填充的值的掩码。形状必须与 tensordict 的批次大小匹配。

  • value – 用于填充张量的值。

返回值::

self

示例

>>> td = TensorDict(source={'a': torch.zeros(3, 4)},
...     batch_size=[3])
>>> mask = torch.tensor([True, False, False])
>>> td1 = td.masked_fill(mask, 1.0)
>>> td1.get("a")
tensor([[1., 1., 1., 1.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])
masked_fill_(*args, **kwargs)

用所需的值填充对应于掩码的值。

参数:
  • mask (boolean torch.Tensor) – 要填充的值的掩码。形状必须与 tensordict 的批次大小匹配。

  • value – 用于填充张量的值。

返回值::

self

示例

>>> td = TensorDict(source={'a': torch.zeros(3, 4)},
...     batch_size=[3])
>>> mask = torch.tensor([True, False, False])
>>> td.masked_fill_(mask, 1.0)
>>> td.get("a")
tensor([[1., 1., 1., 1.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])
masked_select(mask: Tensor) T

掩盖 TensorDict 中的所有张量并返回一个新的 TensorDict 实例,其中类似的键指向掩盖的值。

参数:

mask (torch.Tensor) – 用于张量的布尔掩码。形状必须与 TensorDict 的 batch_size 匹配。

示例

>>> td = TensorDict(source={'a': torch.zeros(3, 4)},
...    batch_size=[3])
>>> mask = torch.tensor([True, False, False])
>>> td_mask = td.masked_select(mask)
>>> td_mask.get("a")
tensor([[0., 0., 0., 0.]])
maximum(other: TensorDictBase | torch.Tensor, *, default: str | CompatibleType | None = None) T

计算selfother的逐元素最大值。

参数:

other (TensorDict or Tensor) – 另一个输入 tensordict 或张量。

关键字参数:

default (torch.Tensorstr, 可选) – 用于独占条目默认值。如果未提供,则两个 tensordict 的键列表必须完全匹配。如果传递 default="intersection",则仅考虑相交键集,其他键将被忽略。在所有其他情况下,将使用 default 用于操作两侧的所有缺失条目。

maximum_(other: TensorDictBase | torch.Tensor) T

maximum()的原地版本。

注意

原地maximum不支持default关键字参数。

classmethod maybe_dense_stack(input, dim=0, *, out=None, **kwargs)

尝试对张量字典进行密集堆叠,并在需要时回退到惰性堆叠。

有关详细信息,请参阅maybe_dense_stack()

mean(dim: int | Tuple[int] = _NoDefault.ZERO, keepdim: bool = _NoDefault.ZERO, *, dtype: torch.dtype | None = None, reduce: bool | None = None) TensorDictBase | torch.Tensor

返回输入张量字典中所有元素的平均值。

参数:
  • dim (int, tuple of int, optional) – 如果为None,则返回一个无维张量字典,其中包含所有叶子节点的平均值(如果可以计算)。如果为整数或整数元组,则仅当此维度与张量字典形状兼容时,才会对指定的维度调用mean

  • keepdim (bool) – 输出张量是否保留维度。

关键字参数:
  • dtype (torch.dtype, optional) – 返回张量的所需数据类型。如果指定,则在执行操作之前将输入张量转换为 dtype。这有助于防止数据类型溢出。默认值:None

  • reduce (bool, optional) – 如果为True,则缩减将在所有 TensorDict 值上进行,并将返回单个缩减张量。默认为False

memmap(prefix: str | None = None, copy_existing: bool = False, *, num_threads: int = 0, return_early: bool = False, share_non_tensor: bool = False) T

将所有张量写入新张量字典中的对应内存映射张量。

参数:
  • prefix (str) – 内存映射张量将存储在其中的目录前缀。目录树结构将模仿张量字典的结构。

  • copy_existing (bool) – 如果为 False(默认值),则如果张量字典中的条目已经是一个存储在磁盘上的张量,并具有关联的文件,但未根据前缀保存在正确的位置,则会引发异常。如果为True,则任何现有张量都将被复制到新位置。

关键字参数:
  • num_threads (int, optional) – 用于写入内存映射张量的线程数量。默认为0

  • return_early (bool, optional) – 如果为True并且num_threads>0,则该方法将返回张量字典的future。

  • share_non_tensor (bool, optional) – 如果为True,则非张量数据将在进程之间共享,并且在单个节点内的任何一个工作线程中进行写入操作(例如,原地更新或设置)将更新所有其他工作线程的值。如果非张量叶节点数量很高(例如,共享大量非张量数据),这可能会导致 OOM 或类似错误。默认为False

然后锁定 TensorDict,这意味着任何不是原地的写入操作都会引发异常(例如,重命名、设置或删除条目)。一旦解锁了张量字典,内存映射属性将变为False,因为不再保证跨进程身份。

返回值::

如果return_early=False,则包含存储在磁盘上的张量的新的张量字典,否则为一个TensorDictFuture实例。

注意

以这种方式序列化对于深度嵌套的张量字典来说可能很慢,因此不建议在训练循环中调用此方法。

memmap_(prefix: str | None = None, copy_existing: bool = False, num_threads: int = 0) TensorDictBase

将所有张量写入相应的内存映射张量,就地进行。

参数:
  • prefix (str) – 内存映射张量将存储在其中的目录前缀。目录树结构将模仿张量字典的结构。

  • copy_existing (bool) – 如果为 False(默认值),则如果张量字典中的条目已经是一个存储在磁盘上的张量,并具有关联的文件,但未根据前缀保存在正确的位置,则会引发异常。如果为True,则任何现有张量都将被复制到新位置。

关键字参数:
  • num_threads (int, optional) – 用于写入内存映射张量的线程数量。默认为0

  • return_early (bool, optional) – 如果为 Truenum_threads>0,则该方法将返回 tensordict 的未来。可以使用 future.result() 查询结果 tensordict。

  • share_non_tensor (bool, optional) – 如果为True,则非张量数据将在进程之间共享,并且在单个节点内的任何一个工作线程中进行写入操作(例如,原地更新或设置)将更新所有其他工作线程的值。如果非张量叶节点数量很高(例如,共享大量非张量数据),这可能会导致 OOM 或类似错误。默认为False

然后锁定 TensorDict,这意味着任何不是原地的写入操作都会引发异常(例如,重命名、设置或删除条目)。一旦解锁了张量字典,内存映射属性将变为False,因为不再保证跨进程身份。

返回值::

如果 return_early=False,则为 self,否则为 TensorDictFuture 实例。

注意

以这种方式序列化对于深度嵌套的张量字典来说可能很慢,因此不建议在训练循环中调用此方法。

memmap_like(prefix: str | None = None, copy_existing: bool = False, num_threads: int = 0) T

创建一个与原始 tensordict 形状相同的无内容内存映射 tensordict。

参数:
  • prefix (str) – 内存映射张量将存储在其中的目录前缀。目录树结构将模仿张量字典的结构。

  • copy_existing (bool) – 如果为 False(默认值),则如果张量字典中的条目已经是一个存储在磁盘上的张量,并具有关联的文件,但未根据前缀保存在正确的位置,则会引发异常。如果为True,则任何现有张量都将被复制到新位置。

关键字参数:
  • num_threads (int, optional) – 用于写入内存映射张量的线程数量。默认为0

  • return_early (bool, optional) – 如果为True并且num_threads>0,则该方法将返回张量字典的future。

  • share_non_tensor (bool, optional) – 如果为True,则非张量数据将在进程之间共享,并且在单个节点内的任何一个工作线程中进行写入操作(例如,原地更新或设置)将更新所有其他工作线程的值。如果非张量叶节点数量很高(例如,共享大量非张量数据),这可能会导致 OOM 或类似错误。默认为False

然后锁定 TensorDict,这意味着任何不是原地的写入操作都会引发异常(例如,重命名、设置或删除条目)。一旦解锁了张量字典,内存映射属性将变为False,因为不再保证跨进程身份。

返回值::

如果 return_early=False,则为一个新的 TensorDict 实例,其数据存储为内存映射张量,否则为一个 TensorDictFuture 实例。

注意

这是在磁盘上写入一组大型缓冲区的推荐方法,因为 memmap_() 将复制信息,这对于大型内容来说可能很慢。

示例

>>> td = TensorDict({
...     "a": torch.zeros((3, 64, 64), dtype=torch.uint8),
...     "b": torch.zeros(1, dtype=torch.int64),
... }, batch_size=[]).expand(1_000_000)  # expand does not allocate new memory
>>> buffer = td.memmap_like("/path/to/dataset")
memmap_refresh_()

如果内存映射 tensordict 具有 saved_path,则刷新其内容。

此方法将在没有关联路径的情况下引发异常。

minimum(other: TensorDictBase | torch.Tensor, *, default: str | CompatibleType | None = None) T

计算 selfother 的逐元素最小值。

参数:

other (TensorDict or Tensor) – 另一个输入 tensordict 或张量。

关键字参数:

default (torch.Tensorstr, 可选) – 用于独占条目默认值。如果未提供,则两个 tensordict 的键列表必须完全匹配。如果传递 default="intersection",则仅考虑相交键集,其他键将被忽略。在所有其他情况下,将使用 default 用于操作两侧的所有缺失条目。

minimum_(other: TensorDictBase | torch.Tensor) T

minimum() 的就地版本。

注意

就地 minimum 不支持 default 关键字参数。

modules() Iterator[Module]

返回网络中所有模块的迭代器。

生成:

Module – 网络中的模块

注意

重复模块仅返回一次。在以下示例中,l 仅返回一次。

示例

>>> l = nn.Linear(2, 2)
>>> net = nn.Sequential(l, l)
>>> for idx, m in enumerate(net.modules()):
...     print(idx, '->', m)

0 -> Sequential(
  (0): Linear(in_features=2, out_features=2, bias=True)
  (1): Linear(in_features=2, out_features=2, bias=True)
)
1 -> Linear(in_features=2, out_features=2, bias=True)
mtia(device: Optional[Union[int, device]] = None) T

将所有模型参数和缓冲区移至 MTIA。

这也使关联的参数和缓冲区成为不同的对象。因此,如果模块将在 MTIA 上运行并进行优化,则应在构建优化器之前调用此方法。

注意

此方法将就地修改模块。

参数:

device (int, optional) – 如果指定,所有参数都将复制到该设备

返回值::

self

返回类型:

模块

mul(other: TensorDictBase | torch.Tensor, *, default: str | CompatibleType | None = None) T

other 乘以 self

\[\text{{out}}_i = \text{{input}}_i \times \text{{other}}_i\]

支持广播、类型提升以及整数、浮点数和复数输入。

参数:

other (TensorDict, Tensor or Number) – 要从 self 中减去的张量或数字。

关键字参数:

default (torch.Tensorstr, 可选) – 用于独占条目默认值。如果未提供,则两个 tensordict 的键列表必须完全匹配。如果传递 default="intersection",则仅考虑相交键集,其他键将被忽略。在所有其他情况下,将使用 default 用于操作两侧的所有缺失条目。

mul_(other: TensorDictBase | torch.Tensor) T

mul() 的就地版本。

注意

就地 mul 不支持 default 关键字参数。

named_apply(fn: Callable, *others: TensorDictBase, batch_size: Sequence[int] | None = None, device: torch.device | None = _NoDefault.ZERO, names: Sequence[str] | None = _NoDefault.ZERO, inplace: bool = False, default: Any = _NoDefault.ZERO, filter_empty: bool | None = None, call_on_nested: bool = False, **constructor_kwargs) TensorDictBase | None

将一个键值条件的可调用函数应用于 tensordict 中存储的所有值,并将它们设置在新的 atensordict 中。

可调用函数的签名必须为 Callable[Tuple[str, Tensor, ...], Optional[Union[Tensor, TensorDictBase]]]

参数:
  • fn (Callable) – 要应用于 tensordict 中的 (name, tensor) 对的函数。对于每个叶子,仅使用其叶子名称(不是完整的 NestedKey)。

  • *others (TensorDictBase 实例, 可选) – 如果提供,这些 tensordict 实例应该具有与 self 相匹配的结构。 fn 参数应该接收与 tensordict 数量相同的未命名输入,包括 self。如果其他 tensordict 具有缺失的条目,可以通过 default 关键字参数传递一个默认值。

  • nested_keys (bool, optional) – 如果为 True,则将使用到叶子的完整路径。默认为 False,即仅将最后一个字符串传递给函数。

  • batch_size (整数序列, 可选) – 如果提供,则生成的 TensorDict 将具有所需的 batch_size。 batch_size 参数应该与转换后的 batch_size 相匹配。这是一个仅限关键字的参数。

  • device (torch.device, 可选) – 生成的设备(如果有)。

  • names (字符串列表, 可选) – 新的维度名称,如果 batch_size 被修改。

  • inplace (bool, optional) – 如果为 True,则在原地进行更改。默认值为 False。这是一个仅限关键字的参数。

  • default (Any, 可选) – 其他 tensordict 中缺失条目的默认值。如果没有提供,缺失的条目将引发 KeyError

  • filter_empty (bool, optional) – 如果为 True,则将过滤掉空 tensordict。这也有助于降低计算成本,因为不会创建和销毁空数据结构。默认值为 False,以保持向后兼容性。

  • propagate_lock (bool, optional) – 如果为 True,则锁定的 tensordict 将产生另一个锁定的 tensordict。默认为 False

  • call_on_nested (bool, optional) –

    如果为 True,则该函数将被调用到第一级张量和容器(TensorDict 或张量类)上。 在这种情况下, func 负责将其调用传播到嵌套级别。 这允许在将调用传播到嵌套 tensordict 时实现细粒度的行为。 如果为 False,则该函数将只被调用到叶节点上,并且 apply 将负责将该函数分发到所有叶节点上。

    >>> td = TensorDict({"a": {"b": [0.0, 1.0]}, "c": [1.0, 2.0]})
    >>> def mean_tensor_only(val):
    ...     if is_tensor_collection(val):
    ...         raise RuntimeError("Unexpected!")
    ...     return val.mean()
    >>> td_mean = td.apply(mean_tensor_only)
    >>> def mean_any(val):
    ...     if is_tensor_collection(val):
    ...         # Recurse
    ...         return val.apply(mean_any, call_on_nested=True)
    ...     return val.mean()
    >>> td_mean = td.apply(mean_any, call_on_nested=True)
    

  • out (TensorDictBase, 可选) –

    要写入结果的 tensordict。 这可以用来避免创建新的 tensordict

    >>> td = TensorDict({"a": 0})
    >>> td.apply(lambda x: x+1, out=td)
    >>> assert (td==1).all()
    

    警告

    如果 tensordict 上执行的操作需要访问多个键才能进行单次计算,则提供等于 selfout 参数会导致操作静默地提供错误的结果。 例如

    >>> td = TensorDict({"a": 1, "b": 1})
    >>> td.apply(lambda x: x+td["a"])["b"] # Right!
    tensor(2)
    >>> td.apply(lambda x: x+td["a"], out=td)["b"] # Wrong!
    tensor(3)
    

  • **constructor_kwargs – 要传递给 TensorDict 构造函数的额外关键字参数。

返回值::

一个新的 tensordict,其中包含经过转换的张量。

示例

>>> td = TensorDict({
...     "a": -torch.ones(3),
...     "nested": {"a": torch.ones(3), "b": torch.zeros(3)}},
...     batch_size=[3])
>>> def name_filter(name, tensor):
...     if name == "a":
...         return tensor
>>> td.named_apply(name_filter)
TensorDict(
    fields={
        a: Tensor(shape=torch.Size([3]), device=cpu, dtype=torch.float32, is_shared=False),
        nested: TensorDict(
            fields={
                a: Tensor(shape=torch.Size([3]), device=cpu, dtype=torch.float32, is_shared=False)},
            batch_size=torch.Size([3]),
            device=None,
            is_shared=False)},
    batch_size=torch.Size([3]),
    device=None,
    is_shared=False)
>>> def name_filter(name, *tensors):
...     if name == "a":
...         r = 0
...         for tensor in tensors:
...             r = r + tensor
...         return tensor
>>> out = td.named_apply(name_filter, td)
>>> print(out)
TensorDict(
    fields={
        a: Tensor(shape=torch.Size([3]), device=cpu, dtype=torch.float32, is_shared=False),
        nested: TensorDict(
            fields={
                a: Tensor(shape=torch.Size([3]), device=cpu, dtype=torch.float32, is_shared=False)},
            batch_size=torch.Size([3]),
            device=None,
            is_shared=False)},
    batch_size=torch.Size([3]),
    device=None,
    is_shared=False)
>>> print(out["a"])
tensor([-1., -1., -1.])

注意

如果函数返回 None,则会忽略该条目。 这可以用来过滤 tensordict 中的数据

>>> td = TensorDict({"1": 1, "2": 2, "b": {"2": 2, "1": 1}}, [])
>>> def name_filter(name, tensor):
...     if name == "1":
...         return tensor
>>> td.named_apply(name_filter)
TensorDict(
    fields={
        1: Tensor(shape=torch.Size([]), device=cpu, dtype=torch.int64, is_shared=False),
        b: TensorDict(
            fields={
                1: Tensor(shape=torch.Size([]), device=cpu, dtype=torch.int64, is_shared=False)},
            batch_size=torch.Size([]),
            device=None,
            is_shared=False)},
    batch_size=torch.Size([]),
    device=None,
    is_shared=False)
named_buffers(prefix: str = '', recurse: bool = True, remove_duplicate: bool = True) Iterator[Tuple[str, Tensor]]

返回模块缓冲区的迭代器,同时返回缓冲区的名称和缓冲区本身。

参数:
  • prefix (str) – 要添加到所有缓冲区名称的前缀。

  • recurse (bool, optional) – 如果为 True,则生成此模块和所有子模块的缓冲区。否则,仅生成此模块的直接成员的缓冲区。默认为 True。

  • remove_duplicate (bool, optional) – 是否从结果中删除重复的缓冲区。默认为 True。

生成:

(str, torch.Tensor) – 包含名称和缓冲区的元组

示例

>>> # xdoctest: +SKIP("undefined vars")
>>> for name, buf in self.named_buffers():
>>>     if name in ['running_var']:
>>>         print(buf.size())
named_children() Iterator[Tuple[str, Module]]

返回直接子模块的迭代器,同时返回模块的名称和模块本身。

生成:

(str, Module) – 包含名称和子模块的元组

示例

>>> # xdoctest: +SKIP("undefined vars")
>>> for name, module in model.named_children():
>>>     if name in ['conv4', 'conv5']:
>>>         print(module)
named_modules(memo: Optional[Set[Module]] = None, prefix: str = '', remove_duplicate: bool = True)

返回网络中所有模块的迭代器,同时返回模块的名称和模块本身。

参数:
  • memo – 用于存储已添加到结果的模块集的备忘录

  • prefix – 将添加到模块名称的前缀

  • remove_duplicate – 是否从结果中删除重复的模块实例

生成:

(str, Module) – 名称和模块的元组

注意

重复模块仅返回一次。在以下示例中,l 仅返回一次。

示例

>>> l = nn.Linear(2, 2)
>>> net = nn.Sequential(l, l)
>>> for idx, m in enumerate(net.named_modules()):
...     print(idx, '->', m)

0 -> ('', Sequential(
  (0): Linear(in_features=2, out_features=2, bias=True)
  (1): Linear(in_features=2, out_features=2, bias=True)
))
1 -> ('0', Linear(in_features=2, out_features=2, bias=True))
named_parameters(prefix: str = '', recurse: bool = True, remove_duplicate: bool = True) Iterator[Tuple[str, Parameter]]

返回模块参数的迭代器,同时产生参数的名称和参数本身。

参数:
  • prefix (str) – 前缀,用于附加到所有参数名称之前。

  • recurse (bool) – 如果为 True,则产生此模块和所有子模块的参数。 否则,只产生此模块的直接成员的参数。

  • remove_duplicate (bool, optional) – 是否从结果中删除重复的参数。 默认为 True。

生成:

(str, Parameter) – 包含名称和参数的元组

示例

>>> # xdoctest: +SKIP("undefined vars")
>>> for name, param in self.named_parameters():
>>>     if name in ['bias']:
>>>         print(param.size())
property names

Tensordict 的维度名称。

可以使用 names 参数在构造时设置名称。

有关如何在构造后设置名称的详细信息,请参阅 refine_names()

nanmean(dim: int | Tuple[int] = _NoDefault.ZERO, keepdim: bool = _NoDefault.ZERO, *, dtype: torch.dtype | None = None, reduce: bool | None = None) TensorDictBase | torch.Tensor

返回输入 tensordict 中所有非 NaN 元素的平均值。

参数:
  • dim (int, tuple of int, optional) – 如果为None,则返回一个无维张量字典,其中包含所有叶子节点的平均值(如果可以计算)。如果为整数或整数元组,则仅当此维度与张量字典形状兼容时,才会对指定的维度调用mean

  • keepdim (bool) – 输出张量是否保留维度。

关键字参数:
  • dtype (torch.dtype, optional) – 返回张量的所需数据类型。如果指定,则在执行操作之前将输入张量转换为 dtype。这有助于防止数据类型溢出。默认值:None

  • reduce (bool, optional) – 如果为True,则缩减将在所有 TensorDict 值上进行,并将返回单个缩减张量。默认为False

nansum(dim: int | Tuple[int] = _NoDefault.ZERO, keepdim: bool = _NoDefault.ZERO, *, dtype: torch.dtype | None = None, reduce: bool | None = None) TensorDictBase | torch.Tensor

返回输入 tensordict 中所有非 NaN 元素的总和。

参数:
  • dim (int, tuple of int, optional) – 如果为 None,则返回一个无量纲的 tensordict,包含所有叶子值的总和(如果可以计算)。 如果是整数或整数元组,则仅当此维度与 tensordict 形状兼容时,才会在指定的维度上调用 sum

  • keepdim (bool) – 输出张量是否保留维度。

关键字参数:
  • dtype (torch.dtype, optional) – 返回张量的所需数据类型。如果指定,则在执行操作之前将输入张量转换为 dtype。这有助于防止数据类型溢出。默认值:None

  • reduce (bool, optional) – 如果为True,则缩减将在所有 TensorDict 值上进行,并将返回单个缩减张量。默认为False

property ndim: int

batch_dims()

ndimension() int

batch_dims()

neg() T

计算 TensorDict 中每个元素的 neg() 值。

neg_() T

就地计算 TensorDict 中每个元素的 neg() 值。

new_empty(*size: Size, dtype: Optional[dtype] = None, device: Union[device, str, int] = _NoDefault.ZERO, requires_grad: bool = False, layout: layout = torch.strided, pin_memory: Optional[bool] = None)

返回大小为 size 且包含空张量的 TensorDict。

默认情况下,返回的 TensorDict 与当前 TensorDict 具有相同的 torch.dtypetorch.device

参数:

size (int...) – 定义输出张量形状的整数列表、元组或 torch.Size。

关键字参数:
  • dtype (torch.dtype, 可选) – 返回的 TensorDict 的期望类型。默认值:如果 Nonetorch.dtype 不会改变。

  • device (torch.device, 可选) – 返回的 TensorDict 的期望设备。默认值:如果 Nonetorch.device 不会改变。

  • requires_grad (bool, 可选) – 是否应在返回的张量上记录自动微分操作。默认值: False

  • layout (torch.layout, 可选) – 返回的 TensorDict 值的期望布局。默认值: torch.strided

  • pin_memory (bool, 可选) – 如果设置,返回的张量将分配到固定内存中。仅适用于 CPU 张量。默认值: False

new_full(size: Size, fill_value, *, dtype: Optional[dtype] = None, device: Union[device, str, int] = _NoDefault.ZERO, requires_grad: bool = False, layout: layout = torch.strided, pin_memory: Optional[bool] = None)

返回大小为 size 且填充为 1 的 TensorDict。

默认情况下,返回的 TensorDict 与当前 TensorDict 具有相同的 torch.dtypetorch.device

参数:
  • size (整数序列) – 定义输出张量形状的列表、元组或 torch.Size。

  • fill_value (标量) – 用于填充输出张量的数字。

关键字参数:
  • dtype (torch.dtype, 可选) – 返回的 TensorDict 的期望类型。默认值:如果 Nonetorch.dtype 不会改变。

  • device (torch.device, 可选) – 返回的 TensorDict 的期望设备。默认值:如果 Nonetorch.device 不会改变。

  • requires_grad (bool, 可选) – 是否应在返回的张量上记录自动微分操作。默认值: False

  • layout (torch.layout, 可选) – 返回的 TensorDict 值的期望布局。默认值: torch.strided

  • pin_memory (bool, 可选) – 如果设置,返回的张量将分配到固定内存中。仅适用于 CPU 张量。默认值: False

new_ones(*size: Size, dtype: Optional[dtype] = None, device: Union[device, str, int] = _NoDefault.ZERO, requires_grad: bool = False, layout: layout = torch.strided, pin_memory: Optional[bool] = None)

返回大小为 size 且填充为 1 的 TensorDict。

默认情况下,返回的 TensorDict 与当前 TensorDict 具有相同的 torch.dtypetorch.device

参数:

size (int...) – 定义输出张量形状的整数列表、元组或 torch.Size。

关键字参数:
  • dtype (torch.dtype, 可选) – 返回的 TensorDict 的期望类型。默认值:如果 Nonetorch.dtype 不会改变。

  • device (torch.device, 可选) – 返回的 TensorDict 的期望设备。默认值:如果 Nonetorch.device 不会改变。

  • requires_grad (bool, 可选) – 是否应在返回的张量上记录自动微分操作。默认值: False

  • layout (torch.layout, 可选) – 返回的 TensorDict 值的期望布局。默认值: torch.strided

  • pin_memory (bool, 可选) – 如果设置,返回的张量将分配到固定内存中。仅适用于 CPU 张量。默认值: False

new_tensor(data: torch.Tensor | TensorDictBase, *, dtype: torch.dtype = None, device: DeviceType = _NoDefault.ZERO, requires_grad: bool = False, pin_memory: bool | None = None)

返回一个新的 TensorDict,其中 data 作为张量 data

默认情况下,返回的 TensorDict 值具有与该张量相同的 torch.dtypetorch.device

The data 也可以是张量集合 (TensorDicttensorclass),在这种情况下,new_tensor 方法会迭代 selfdata 的张量对。

参数:

data (torch.TensorTensorDictBase) – 要复制的数据。

关键字参数:
  • dtype (torch.dtype, 可选) – 返回的 TensorDict 的期望类型。默认值:如果 Nonetorch.dtype 不会改变。

  • device (torch.device, 可选) – 返回的 TensorDict 的期望设备。默认值:如果 Nonetorch.device 不会改变。

  • requires_grad (bool, 可选) – 是否应在返回的张量上记录自动微分操作。默认值: False

  • pin_memory (bool, 可选) – 如果设置,返回的张量将分配到固定内存中。仅适用于 CPU 张量。默认值: False

new_zeros(*size: Size, dtype: Optional[dtype] = None, device: Union[device, str, int] = _NoDefault.ZERO, requires_grad: bool = False, layout: layout = torch.strided, pin_memory: Optional[bool] = None)

返回大小为 size 并填充为 0 的 TensorDict。

默认情况下,返回的 TensorDict 与当前 TensorDict 具有相同的 torch.dtypetorch.device

参数:

size (int...) – 定义输出张量形状的整数列表、元组或 torch.Size。

关键字参数:
  • dtype (torch.dtype, 可选) – 返回的 TensorDict 的期望类型。默认值:如果 Nonetorch.dtype 不会改变。

  • device (torch.device, 可选) – 返回的 TensorDict 的期望设备。默认值:如果 Nonetorch.device 不会改变。

  • requires_grad (bool, 可选) – 是否应在返回的张量上记录自动微分操作。默认值: False

  • layout (torch.layout, 可选) – 返回的 TensorDict 值的期望布局。默认值: torch.strided

  • pin_memory (bool, 可选) – 如果设置,返回的张量将分配到固定内存中。仅适用于 CPU 张量。默认值: False

non_tensor_items(include_nested: bool = False)

返回所有非张量叶子,可能递归。

norm(*, out=None, dtype: torch.dtype | None = None)

计算 tensordict 中每个张量的范数。

关键字参数:
  • out (TensorDict, optional) – 输出 tensordict。

  • dtype (torch.dtype, optional) – 输出数据类型 (torch>=2.4)。

numel() int

批次中的元素总数。

下限为 1,因为两个形状为空的 tensordict 的堆栈将具有两个元素,因此我们认为 tensordict 至少有 1 个元素大。

numpy()

将 tensordict 转换为 (可能嵌套的) numpy 数组字典。

非张量数据按原样公开。

示例

>>> from tensordict import TensorDict
>>> import torch
>>> data = TensorDict({"a": {"b": torch.zeros(()), "c": "a string!"}})
>>> print(data)
TensorDict(
    fields={
        a: TensorDict(
            fields={
                b: Tensor(shape=torch.Size([]), device=cpu, dtype=torch.float32, is_shared=False),
                c: NonTensorData(data=a string!, batch_size=torch.Size([]), device=None)},
            batch_size=torch.Size([]),
            device=None,
            is_shared=False)},
    batch_size=torch.Size([]),
    device=None,
    is_shared=False)
>>> print(data.numpy())
{'a': {'b': array(0., dtype=float32), 'c': 'a string!'}}
parameters(recurse: bool = True) Iterator[Parameter]

返回模块参数的迭代器。

这通常传递给优化器。

参数:

recurse (bool) – 如果为 True,则产生此模块和所有子模块的参数。 否则,只产生此模块的直接成员的参数。

生成:

Parameter – 模块参数

示例

>>> # xdoctest: +SKIP("undefined vars")
>>> for param in model.parameters():
>>>     print(type(param), param.size())
<class 'torch.Tensor'> (20L,)
<class 'torch.Tensor'> (20L, 1L, 5L, 5L)
permute(*args, **kwargs)

返回 tensordict 的视图,其中批次维度根据 dims 进行置换。

参数:
  • *dims_list (int) – tensordict 的批次维度的新的排序方式。或者,可以提供单个整数可迭代对象。

  • dims (list of int) – 调用 permute(…) 的另一种方式。

返回值::

具有按所需顺序排列的批次维度的新的 tensordict。

示例

>>> tensordict = TensorDict({"a": torch.randn(3, 4, 5)}, [3, 4])
>>> print(tensordict.permute([1, 0]))
PermutedTensorDict(
    source=TensorDict(
        fields={
            a: Tensor(torch.Size([3, 4, 5]), dtype=torch.float32)},
        batch_size=torch.Size([3, 4]),
        device=cpu,
        is_shared=False),
    op=permute(dims=[1, 0]))
>>> print(tensordict.permute(1, 0))
PermutedTensorDict(
    source=TensorDict(
        fields={
            a: Tensor(torch.Size([3, 4, 5]), dtype=torch.float32)},
        batch_size=torch.Size([3, 4]),
        device=cpu,
        is_shared=False),
    op=permute(dims=[1, 0]))
>>> print(tensordict.permute(dims=[1, 0]))
PermutedTensorDict(
    source=TensorDict(
        fields={
            a: Tensor(torch.Size([3, 4, 5]), dtype=torch.float32)},
        batch_size=torch.Size([3, 4]),
        device=cpu,
        is_shared=False),
    op=permute(dims=[1, 0]))
pin_memory(*args, **kwargs)

在存储的张量上调用 pin_memory()

参数:
  • num_threads (intstr) – 如果提供,则用于在叶子上调用 pin_memory 的线程数。默认为 None,这会在 ThreadPoolExecutor(max_workers=None) 中设置大量线程。要在主线程上执行对 pin_memory() 的所有调用,请传递 num_threads=0

  • inplace (bool, optional) – 如果为 True,则 tensordict 会就地修改。默认为 False

pin_memory_(num_threads: int | str = 0) T

在存储的张量上调用 pin_memory(),并返回就地修改的 TensorDict。

参数:

num_threads (intstr) – 如果提供,则是在叶子节点上调用 pin_memory 时使用的线程数。如果传递 "auto",则线程数会自动确定。

pop(key: NestedKey, default: Any = _NoDefault.ZERO) Tensor

从一个 tensordict 中移除并返回一个值。

如果值不存在且没有提供默认值,则会抛出 KeyError。

参数:
  • key (str嵌套键) – 要查找的条目。

  • default (Any, 可选) – 如果找不到键,则返回的值。

示例

>>> td = TensorDict({"1": 1}, [])
>>> one = td.pop("1")
>>> assert one == 1
>>> none = td.pop("1", default=None)
>>> assert none is None
popitem()

移除最后插入 TensorDict 中的项目。

popitem 仅返回非嵌套的值。

pow(other: TensorDictBase | torch.Tensor, *, default: str | CompatibleType | None = None) T

使用 otherself 中每个元素进行求幂,并返回包含结果的张量。

other 可以是单个 float 数字、一个 Tensor 或者一个 TensorDict

other 是一个张量时,inputother 的形状必须是广播兼容的。

参数:

other (float, tensortensordict) – 指数值

关键字参数:

default (torch.Tensorstr, 可选) – 用于独占条目默认值。如果未提供,则两个 tensordict 的键列表必须完全匹配。如果传递 default="intersection",则仅考虑相交键集,其他键将被忽略。在所有其他情况下,将使用 default 用于操作两侧的所有缺失条目。

pow_(other: TensorDictBase | torch.Tensor) T

pow() 的就地版本。

注意

就地 pow 不支持 default 关键字参数。

prod(dim: int | Tuple[int] = _NoDefault.ZERO, keepdim: bool = _NoDefault.ZERO, *, dtype: torch.dtype | None = None, reduce: bool | None = None) TensorDictBase | torch.Tensor

返回输入 tensordict 中所有元素值的乘积。

参数:
  • dim (int, int 元组, 可选) – 如果为 None,则返回一个无维 tensordict,其中包含所有叶子节点的乘积值(如果可以计算)。如果为整数或整数元组,则仅当该维数与 tensordict 形状兼容时,才会在指定的维数上调用 prod

  • keepdim (bool) – 输出张量是否保留维度。

关键字参数:
  • dtype (torch.dtype, optional) – 返回张量的所需数据类型。如果指定,则在执行操作之前将输入张量转换为 dtype。这有助于防止数据类型溢出。默认值:None

  • reduce (bool, optional) – 如果为True,则缩减将在所有 TensorDict 值上进行,并将返回单个缩减张量。默认为False

qint32()

将所有张量转换为 torch.qint32

qint8()

将所有张量转换为 torch.qint8

quint4x2()

将所有张量转换为 torch.quint4x2

quint8()

将所有张量转换为 torch.quint8

reciprocal() T

计算 TensorDict 中每个元素的 reciprocal() 值。

reciprocal_() T

就地计算 TensorDict 中每个元素的 reciprocal() 值。

recv(src: int, *, group: 'dist.ProcessGroup' | None = None, init_tag: int = 0, pseudo_rand: bool = False) int

接收一个 tensordict 的内容并用它更新内容。

请查看 send 方法中的示例以获取上下文。

参数:

src (int) – 源工作者的等级。

关键字参数:
  • group (torch.distributed.ProcessGroup, optional) – 如果设置,将使用指定的进程组进行通信。否则,将使用默认进程组。默认为 None

  • init_tag (int) – 源工作者使用的 init_tag

  • pseudo_rand (bool) – 如果为 True,则标签序列将是伪随机的,允许从不同节点发送多个数据而不会重叠。请注意,这些伪随机数的生成很昂贵(1e-5 秒/数),这意味着它可能会降低算法的运行时间。此值必须与传递给 send() 的值匹配。默认值为 False

reduce(dst, op=None, async_op=False, return_premature=False, group=None)

在所有机器上减少 tensordict。

只有 rank 为 dst 的进程将接收最终结果。

refine_names(*names) T

根据 names 细化 self 的维度名称。

细化是重命名的一个特例,它“提升”了未命名的维度。一个 None 维可以细化成任何名称;一个命名维度只能细化成相同的名称。

由于命名张量可以与未命名张量共存,因此细化名称提供了一种很好的方法来编写支持命名张量和未命名张量的代码。

names 可以包含最多一个 Ellipsis (...)。Ellipsis 会被贪婪地扩展;它会就地扩展以使用来自 self.names 对应索引的名称来填充 names,使其长度与 self.dim() 相同。

返回值:具有根据输入命名的维度的相同 tensordict。

示例

>>> td = TensorDict({}, batch_size=[3, 4, 5, 6])
>>> tdr = td.refine_names(None, None, None, "d")
>>> assert tdr.names == [None, None, None, "d"]
>>> tdr = td.refine_names("a", None, None, "d")
>>> assert tdr.names == ["a", None, None, "d"]
register_backward_hook(hook: Callable[[Module, Union[Tuple[Tensor, ...], Tensor], Union[Tuple[Tensor, ...], Tensor]], Union[None, Tuple[Tensor, ...], Tensor]]) RemovableHandle

在模块上注册反向钩子。

此函数已被弃用,建议使用 register_full_backward_hook(),并且此函数的行为将在未来版本中发生更改。

返回值::

一个句柄,可用于通过调用 handle.remove() 来删除已添加的钩子

返回类型:

torch.utils.hooks.RemovableHandle

register_buffer(name: str, tensor: Optional[Tensor], persistent: bool = True) None

向模块添加一个缓冲区。

这通常用于注册一个不应被视为模型参数的缓冲区。例如,BatchNorm 的 running_mean 不是参数,但它是模块状态的一部分。缓冲区默认情况下是持久的,并将与参数一起保存。可以通过将 persistent 设置为 False 来更改此行为。持久缓冲区和非持久缓冲区之间的唯一区别在于后者不会成为此模块的 state_dict 的一部分。

可以使用给定的名称以属性的形式访问缓冲区。

参数:
  • name (str) – 缓冲区的名称。可以使用给定的名称从该模块访问缓冲区

  • tensor (TensorNone) – 要注册的缓冲区。如果为 None,则对缓冲区运行的操作(如 cuda)将被忽略。如果为 None,则该缓冲区 **不** 包含在模块的 state_dict 中。

  • persistent (bool) – 缓冲区是否为此模块的 state_dict 的一部分。

示例

>>> # xdoctest: +SKIP("undefined vars")
>>> self.register_buffer('running_mean', torch.zeros(num_features))
register_forward_hook(hook: Union[Callable[[T, Tuple[Any, ...], Any], Optional[Any]], Callable[[T, Tuple[Any, ...], Dict[str, Any], Any], Optional[Any]]], *, prepend: bool = False, with_kwargs: bool = False, always_call: bool = False) RemovableHandle

在模块上注册一个前向钩子。

每次在 forward() 计算完输出后,都会调用该钩子。

如果 with_kwargsFalse 或未指定,则输入仅包含传递给模块的位置参数。关键字参数不会传递给钩子,只传递给 forward。钩子可以修改输出。它可以就地修改输入,但不会对前向传播产生影响,因为这是在调用 forward() 后调用的。钩子应具有以下签名

hook(module, args, output) -> None or modified output

如果 with_kwargsTrue,则前向钩子将传递给前向函数的 kwargs,并期望返回可能已修改的输出。钩子应具有以下签名

hook(module, args, kwargs, output) -> None or modified output
参数:
  • hook (Callable) – 用户定义的要注册的钩子。

  • prepend (bool) – 如果为 True,则在该 torch.nn.modules.Module 上所有现有的 forward 钩子之前触发提供的 hook。否则,在该 torch.nn.modules.Module 上所有现有的 forward 钩子之后触发提供的 hook。请注意,使用 register_module_forward_hook() 注册的全局 forward 钩子将在使用此方法注册的所有钩子之前触发。默认值: False

  • with_kwargs (bool) – 如果为 True,则 hook 将传递给前向函数的 kwargs。默认值: False

  • always_call (bool) – 如果为 True,则无论在调用模块时是否引发异常,都会运行 hook。默认值: False

返回值::

一个句柄,可用于通过调用 handle.remove() 来删除已添加的钩子

返回类型:

torch.utils.hooks.RemovableHandle

register_forward_pre_hook(hook: Union[Callable[[T, Tuple[Any, ...]], Optional[Any]], Callable[[T, Tuple[Any, ...], Dict[str, Any]], Optional[Tuple[Any, Dict[str, Any]]]], *, prepend: bool = False, with_kwargs: bool = False) RemovableHandle

在模块上注册一个前向预钩子。

每次调用forward()之前,都会调用该钩子。

如果with_kwargs为假或未指定,则输入仅包含传递给模块的位置参数。关键字参数不会传递给钩子,而仅传递给forward。该钩子可以修改输入。用户可以在钩子中返回一个元组或一个修改后的单一值。如果返回一个单一值(除非该值本身就是一个元组),我们将将其包装成一个元组。该钩子应具有以下签名

hook(module, args) -> None or modified input

如果with_kwargs为真,则前向预钩子将传递给前向函数的 kwargs。如果钩子修改了输入,则应返回 args 和 kwargs。该钩子应具有以下签名

hook(module, args, kwargs) -> None or a tuple of modified input and kwargs
参数:
  • hook (Callable) – 用户定义的要注册的钩子。

  • prepend (bool) – 如果为真,则提供的hook将在该torch.nn.modules.Module上所有现有的forward_pre钩子之前被触发。否则,提供的hook将在该torch.nn.modules.Module上所有现有的forward_pre钩子之后被触发。请注意,使用register_module_forward_pre_hook()注册的全局forward_pre钩子将在使用此方法注册的所有钩子之前被触发。默认值:False

  • with_kwargs (bool) – 如果为真,则hook将传递给前向函数的 kwargs。默认值:False

返回值::

一个句柄,可用于通过调用 handle.remove() 来删除已添加的钩子

返回类型:

torch.utils.hooks.RemovableHandle

register_full_backward_hook(hook: Callable[[Module, Union[Tuple[Tensor, ...], Tensor], Union[Tuple[Tensor, ...], Tensor]], Union[None, Tuple[Tensor, ...], Tensor]], prepend: bool = False) RemovableHandle

在模块上注册反向钩子。

每次计算关于模块的梯度时,都会调用该钩子,即仅当计算关于模块输出的梯度时,钩子才会执行。该钩子应具有以下签名

hook(module, grad_input, grad_output) -> tuple(Tensor) or None

grad_inputgrad_output 是包含关于输入和输出的梯度的元组。该钩子不应修改其参数,但可以选择返回关于输入的新梯度,该梯度将在后续计算中代替 grad_input 使用。 grad_input 仅对应于作为位置参数给出的输入,所有 kwarg 参数都被忽略。对于所有非张量参数,grad_inputgrad_output 中的条目将为 None

出于技术原因,当将此钩子应用于模块时,其前向函数将接收传递给模块的每个张量的视图。类似地,调用者将接收模块前向函数返回的每个张量的视图。

警告

使用反向钩子时,不允许对输入或输出进行就地修改,否则将引发错误。

参数:
  • hook (Callable) – 要注册的用户定义钩子。

  • prepend (bool) – 如果为真,则提供的hook将在该torch.nn.modules.Module上所有现有的backward钩子之前被触发。否则,提供的hook将在该torch.nn.modules.Module上所有现有的backward钩子之后被触发。请注意,使用register_module_full_backward_hook() 注册的全局backward 钩子将在使用此方法注册的所有钩子之前被触发。

返回值::

一个句柄,可用于通过调用 handle.remove() 来删除已添加的钩子

返回类型:

torch.utils.hooks.RemovableHandle

register_full_backward_pre_hook(hook: Callable[[Module, Union[Tuple[Tensor, ...], Tensor]], Union[None, Tuple[Tensor, ...], Tensor]], prepend: bool = False) RemovableHandle

在模块上注册一个反向预钩子。

每次计算模块的梯度时,都会调用该钩子。该钩子应具有以下签名

hook(module, grad_output) -> tuple[Tensor] or None

grad_output 是一个元组。钩子不应该修改其参数,但它可以选择返回一个新的关于输出的梯度,该梯度将在后续计算中代替 grad_output 使用。在 grad_output 中,所有非张量参数的条目都将为 None

出于技术原因,当将此钩子应用于模块时,其前向函数将接收传递给模块的每个张量的视图。类似地,调用者将接收模块前向函数返回的每个张量的视图。

警告

在使用反向钩子时,不允许对输入进行就地修改,这将引发错误。

参数:
  • hook (Callable) – 要注册的用户定义钩子。

  • prepend (bool) – 如果为真,则提供的 hook 将在该 torch.nn.modules.Module 上所有现有的 backward_pre 钩子之前触发。否则,提供的 hook 将在该 torch.nn.modules.Module 上所有现有的 backward_pre 钩子之后触发。请注意,使用 register_module_full_backward_pre_hook() 注册的全局 backward_pre 钩子将在通过此方法注册的所有钩子之前触发。

返回值::

一个句柄,可用于通过调用 handle.remove() 来删除已添加的钩子

返回类型:

torch.utils.hooks.RemovableHandle

register_get_post_hook(hook)

注册一个钩子,在对叶张量进行任何获取操作后调用。

register_load_state_dict_post_hook(hook)

注册一个后挂钩,在调用模块的 load_state_dict() 后运行。

它应该具有以下签名:

hook(module, incompatible_keys) -> None

module 参数是当前注册此钩子的模块,incompatible_keys 参数是 NamedTuple,由属性 missing_keysunexpected_keys 组成。missing_keys 是一个包含缺少键的 liststr,而 unexpected_keys 是一个包含意外键的 liststr

如果需要,可以对给定的 incompatible_keys 进行就地修改。

请注意,使用 strict=True 调用 load_state_dict() 时执行的检查会受到钩子对 missing_keysunexpected_keys 进行的修改的影响,如预期的那样。对任一组键的添加会导致在 strict=True 时抛出错误,而清除缺少的键和意外的键则会避免错误。

返回值::

一个句柄,可用于通过调用 handle.remove() 来删除已添加的钩子

返回类型:

torch.utils.hooks.RemovableHandle

register_load_state_dict_pre_hook(hook)

注册一个预挂钩,在调用模块的 load_state_dict() 之前运行。

它应该具有以下签名:

hook(module, state_dict, prefix, local_metadata, strict, missing_keys, unexpected_keys, error_msgs) -> None # noqa: B950

参数:

hook (Callable) – 在加载状态字典之前将被调用的可调用钩子。

register_module(name: str, module: Optional[Module]) None

add_module() 的别名。

register_parameter(name: str, param: Optional[Parameter]) None

向模块添加一个参数。

可以使用给定的名称将参数作为属性访问。

参数:
  • name (str) – 参数的名称。可以使用给定的名称从此模块访问参数

  • param (ParameterNone) – 要添加到模块的参数。如果为 None,则对参数运行的操作(例如 cuda)将被忽略。如果为 None,则该参数不会包含在模块的 state_dict 中。

register_state_dict_post_hook(hook)

state_dict() 方法注册一个后挂钩。

它应该具有以下签名:

hook(module, state_dict, prefix, local_metadata) -> None

注册的钩子可以对 state_dict 进行就地修改。

register_state_dict_pre_hook(hook)

state_dict() 方法注册一个预挂钩。

它应该具有以下签名:

hook(module, prefix, keep_vars) -> None

注册的钩子可用于在进行 state_dict 调用之前执行预处理。

rename(*names, **rename_map)

返回一个维度已重命名的 tensordict 的克隆。

示例

>>> td = TensorDict({}, batch_size=[1, 2, 3 ,4])
>>> td.names = list("abcd")
>>> td_rename = td.rename(c="g")
>>> assert td_rename.names == list("abgd")
rename_(*names, **rename_map)

rename() 相同,但就地执行重命名。

示例

>>> td = TensorDict({}, batch_size=[1, 2, 3 ,4])
>>> td.names = list("abcd")
>>> assert td.rename_(c="g")
>>> assert td.names == list("abgd")
rename_key_(old_key: NestedKey, new_key: NestedKey, safe: bool = False) TensorDictBase

使用新的字符串重命名键,并返回具有更新的键名的相同 tensordict。

参数:
  • old_key (str嵌套键) – 要重命名的键。

  • new_key (str嵌套键) – 条目的新名称。

  • safe (bool, 可选) – 如果为 True,则当新键已存在于 TensorDict 中时,会抛出错误。

返回值::

self

replace(*args, **kwargs)

创建一个 tensordict 的浅拷贝,其中条目已替换。

接受一个未命名的参数,该参数必须是 TensorDictBase 子类的字典。此外,可以使用命名的关键字参数更新第一级条目。

返回值::

如果输入非空,则返回一个带有更新条目的 self 副本。如果提供空字典或没有字典,并且 kwargs 为空,则返回 self

requires_grad_(requires_grad=True) T

更改是否应记录对该张量的操作的自动梯度:就地设置该张量的 requires_grad 属性。

返回此 tensordict。

参数:

requires_grad (bool, optional) – 是否应记录对该 tensordict 的操作的自动梯度。默认为 True

reshape(*shape: int)

返回具有所需形状的连续、重新整形张量。

参数:

*shape (int) – 结果 tensordict 的新形状。

返回值::

具有重新整形键的 TensorDict

示例

>>> td = TensorDict({
...     'x': torch.arange(12).reshape(3, 4),
... }, batch_size=[3, 4])
>>> td = td.reshape(12)
>>> print(td['x'])
torch.Tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])
round() T

计算 TensorDict 中每个元素的 round() 值。

round_() T

就地计算 TensorDict 中每个元素的 round() 值。

save(prefix: str | None = None, copy_existing: bool = False, *, num_threads: int = 0, return_early: bool = False, share_non_tensor: bool = False) T

将 tensordict 保存到磁盘。

此函数是 memmap() 的代理。

property saved_path

返回存储 memmap 保存的 TensorDict 的路径。

当 is_memmap() 返回 False(例如,当 tensordict 解锁时)时,此参数会消失。

select(*keys: NestedKey, inplace: bool = False, strict: bool = True) T

选择 tensordict 的键,并返回一个仅包含所选键的新 tensordict。

这些值不会被复制:对原始 tensordict 或新 tensordict 的任何一个张量进行就地修改,都会导致这两个 tensordict 发生变化。

参数:
  • *keys (str) – 要选择的键

  • inplace (bool) – 如果为 True,则会就地修剪 tensordict。默认值为 False

  • strict (bool, optional) – 是否选择不存在的键会导致错误。默认值:True

返回值::

一个包含仅选定键的新 tensordict(如果 inplace=True,则为同一个)。

注意

若要选择 tensordict 中的键并返回一个缺少这些键的 tensordict 版本,请参阅 split_keys() 方法。

示例

>>> from tensordict import TensorDict
>>> td = TensorDict({"a": 0, "b": {"c": 1, "d": 2}}, [])
>>> td.select("a", ("b", "c"))
TensorDict(
    fields={
        a: Tensor(shape=torch.Size([]), device=cpu, dtype=torch.int64, is_shared=False),
        b: TensorDict(
            fields={
                c: Tensor(shape=torch.Size([]), device=cpu, dtype=torch.int64, is_shared=False)},
            batch_size=torch.Size([]),
            device=None,
            is_shared=False)},
    batch_size=torch.Size([]),
    device=None,
    is_shared=False)
>>> td.select("a", "b")
TensorDict(
    fields={
        a: Tensor(shape=torch.Size([]), device=cpu, dtype=torch.int64, is_shared=False),
        b: TensorDict(
            fields={
                c: Tensor(shape=torch.Size([]), device=cpu, dtype=torch.int64, is_shared=False),
                d: Tensor(shape=torch.Size([]), device=cpu, dtype=torch.int64, is_shared=False)},
            batch_size=torch.Size([]),
            device=None,
            is_shared=False)},
    batch_size=torch.Size([]),
    device=None,
    is_shared=False)
>>> td.select("this key does not exist", strict=False)
TensorDict(
    fields={
    },
    batch_size=torch.Size([]),
    device=None,
    is_shared=False)
send(dst: int, *, group: 'dist.ProcessGroup' | None = None, init_tag: int = 0, pseudo_rand: bool = False) None

将 tensordict 的内容发送到远端工作程序。

参数:

dst (int) – 目标工作者的排名,内容应该发送到那里。

关键字参数:
  • group (torch.distributed.ProcessGroup, optional) – 如果设置,将使用指定的进程组进行通信。否则,将使用默认进程组。默认为 None

  • init_tag (int) – 用于标记张量的初始标签。请注意,这将根据张量字典中包含的张量数量增加。

  • pseudo_rand (bool) – 如果为 True,标签序列将是伪随机的,允许从不同节点发送多个数据而不会重叠。请注意,生成这些伪随机数很昂贵(1e-5 秒/数),这意味着它可能会降低算法的运行时间。默认为 False

示例

>>> from torch import multiprocessing as mp
>>> from tensordict import TensorDict
>>> import torch
>>>
>>>
>>> def client():
...     torch.distributed.init_process_group(
...         "gloo",
...         rank=1,
...         world_size=2,
...         init_method=f"tcp://localhost:10003",
...     )
...
...     td = TensorDict(
...         {
...             ("a", "b"): torch.randn(2),
...             "c": torch.randn(2, 3),
...             "_": torch.ones(2, 1, 5),
...         },
...         [2],
...     )
...     td.send(0)
...
>>>
>>> def server(queue):
...     torch.distributed.init_process_group(
...         "gloo",
...         rank=0,
...         world_size=2,
...         init_method=f"tcp://localhost:10003",
...     )
...     td = TensorDict(
...         {
...             ("a", "b"): torch.zeros(2),
...             "c": torch.zeros(2, 3),
...             "_": torch.zeros(2, 1, 5),
...         },
...         [2],
...     )
...     td.recv(1)
...     assert (td != 0).all()
...     queue.put("yuppie")
...
>>>
>>> if __name__=="__main__":
...     queue = mp.Queue(1)
...     main_worker = mp.Process(target=server, args=(queue,))
...     secondary_worker = mp.Process(target=client)
...
...     main_worker.start()
...     secondary_worker.start()
...     out = queue.get(timeout=10)
...     assert out == "yuppie"
...     main_worker.join()
...     secondary_worker.join()
set(key: NestedKey, item: Tensor, inplace: bool = False, **kwargs: Any) TensorDictBase

设置新的键值对。

参数:
  • key (str, tuple of str) – 要设置的键的名称。

  • item (torch.Tensor or equivalent, TensorDictBase instance) – 要存储在 tensordict 中的值。

  • inplace (bool, optional) – 如果为 True 且键与 tensordict 中的现有键匹配,则该键值对的更新将就地进行。如果 inplace 为 True 且找不到条目,则将添加该条目。若要进行更严格的就地操作,请使用 set_()。默认为 False

关键字参数:

non_blocking (bool, optional) – 如果 True 并且此副本位于不同的设备之间,则副本可能与主机异步发生。

返回值::

self

示例

>>> td = TensorDict({}, batch_size[3, 4])
>>> td.set("x", torch.randn(3, 4))
>>> y = torch.randn(3, 4, 5)
>>> td.set("y", y, inplace=True) # works, even if 'y' is not present yet
>>> td.set("y", torch.zeros_like(y), inplace=True)
>>> assert (y==0).all() # y values are overwritten
>>> td.set("y", torch.ones(5), inplace=True) # raises an exception as shapes mismatch
set_(key: NestedKey, item: Tensor) T

将值设置为现有键,同时保留原始存储。

参数:
关键字参数:

non_blocking (bool, optional) – 如果 True 并且此副本位于不同的设备之间,则副本可能与主机异步发生。

返回值::

self

示例

>>> td = TensorDict({}, batch_size[3, 4])
>>> x = torch.randn(3, 4)
>>> td.set("x", x)
>>> td.set_("x", torch.zeros_like(x))
>>> assert (x == 0).all()
set_at_(key: NestedKey, value: Tensor, index: Union[None, int, slice, str, Tensor, List[Any], Tuple[Any, ...]]) T

index 指示的索引处就地设置值。

参数:
  • key (str, str 元组) – 要修改的键。

  • value (torch.Tensor) – 要在索引 index 处设置的值

  • index (int, 张量元组) – 写入值的索引。

关键字参数:

non_blocking (bool, optional) – 如果 True 并且此副本位于不同的设备之间,则副本可能与主机异步发生。

返回值::

self

示例

>>> td = TensorDict({}, batch_size[3, 4])
>>> x = torch.randn(3, 4)
>>> td.set("x", x)
>>> td.set_at_("x", value=torch.ones(1, 4), index=slice(1))
>>> assert (x[0] == 1).all()
set_extra_state(state: Any) None

设置加载的 state_dict 中包含的额外状态。

此函数从 load_state_dict() 调用,以处理 state_dict 中找到的任何额外状态。如果需要在模块的 state_dict 中存储额外状态,请为您的模块实现此函数以及相应的 get_extra_state()

参数:

state (dict) – 来自 state_dict 的额外状态

set_non_tensor(key: NestedKey, value: Any)

使用 tensordict.tensorclass.NonTensorData 在 tensordict 中注册非张量值。

可以使用 TensorDictBase.get_non_tensor() 或直接使用 get 获取值,它将返回 tensordict.tensorclass.NonTensorData 对象。

返回:self

示例

>>> data = TensorDict({}, batch_size=[])
>>> data.set_non_tensor(("nested", "the string"), "a string!")
>>> assert data.get_non_tensor(("nested", "the string")) == "a string!"
>>> # regular `get` works but returns a NonTensorData object
>>> data.get(("nested", "the string"))
NonTensorData(
    data='a string!',
    batch_size=torch.Size([]),
    device=None,
    is_shared=False)
set_submodule(target: str, module: Module) None

如果存在,则设置 target 给出的子模块,否则抛出错误。

例如,假设您有一个 nn.Module A,它看起来像这样

A(
    (net_b): Module(
        (net_c): Module(
            (conv): Conv2d(16, 33, kernel_size=(3, 3), stride=(2, 2))
        )
        (linear): Linear(in_features=100, out_features=200, bias=True)
    )
)

(该图显示了一个 nn.Module AA 有一个嵌套的子模块 net_b,它本身有两个子模块 net_clinearnet_c 然后有一个子模块 conv。)

要使用新的子模块 Linear 覆盖 Conv2d,您需要调用 set_submodule("net_b.net_c.conv", nn.Linear(33, 16))

参数:
  • target – 要查找的子模块的完全限定字符串名称。(有关如何指定完全限定字符串,请参阅上面的示例。)

  • module – 要设置子模块的模块。

引发:
  • ValueError – 如果目标字符串为空

  • AttributeError – 如果目标字符串引用无效路径或解析为非 nn.Module

setdefault(key: NestedKey, default: Tensor, inplace: bool = False) Tensor

如果 key 不在 tensordict 中,则使用 default 的值为 key 插入条目。

如果 key 在 tensordict 中,则返回 key 的值,否则返回 default

参数:
  • key (str嵌套键) – 值的名称。

  • default (torch.Tensor兼容类型, TensorDictBase) – 如果键不存在,则要存储在 tensordict 中的值。

返回值::

tensordict 中键的值。如果键以前未设置,则将为 default。

示例

>>> td = TensorDict({}, batch_size=[3, 4])
>>> val = td.setdefault("a", torch.zeros(3, 4))
>>> assert (val == 0).all()
>>> val = td.setdefault("a", torch.ones(3, 4))
>>> assert (val == 0).all() # output is still 0
property shape: Size

batch_size.

share_memory() T

torch.Tensor.share_memory_().

share_memory_(*args, **kwargs)

将所有张量置于共享内存中。

然后,TensorDict 被锁定,这意味着任何不在位的写入操作都会抛出异常(例如,重命名、设置或删除条目)。相反,一旦 tensordict 解锁,share_memory 属性将变为 False,因为跨进程标识不再保证。

返回值::

self

sigmoid() T

计算 TensorDict 中每个元素的 sigmoid() 值。

sigmoid_() T

就地计算 TensorDict 中每个元素的 sigmoid() 值。

sign() T

计算 TensorDict 中每个元素的 sign() 值。

sign_() T

就地计算 TensorDict 中每个元素的 sign() 值。

sin() T

计算 TensorDict 中每个元素的 sin() 值。

sin_() T

就地计算 TensorDict 中每个元素的 sin() 值。

sinh() T

计算 TensorDict 中每个元素的 sinh() 值。

sinh_() T

就地计算 TensorDict 中每个元素的 sinh() 值。

size(dim: int | None = None) torch.Size | int

返回由 dim 指示的维度的尺寸。

如果未指定 dim,则返回 TensorDict 的 batch_size 属性。

property sorted_keys: list[NestedKey]

返回按字母顺序排序的键。

不支持额外参数。

如果 TensorDict 被锁定,则键将被缓存,直到 tensordict 解锁,以加快执行速度。

split(split_size: int | list[int], dim: int = 0) list[TensorDictBase]

使用给定维度中的指定大小拆分 TensorDict 中的每个张量,类似于 torch.split

返回一个 TensorDict 实例列表,其中包含拆分的项块的视图。

参数:
  • split_size (int or List(int)) – 单个块的大小或每个块的大小列表。

  • dim (int) – 要沿其拆分张量的维度。

返回值::

具有给定维度中指定大小的 TensorDict 列表。

示例

>>> td = TensorDict({
...     'x': torch.arange(12).reshape(3, 4),
... }, batch_size=[3, 4])
>>> td0, td1 = td.split([1, 2], dim=0)
>>> print(td0['x'])
torch.Tensor([[0, 1, 2, 3]])
split_keys(*key_sets, inplace=False, strict: bool = True, reproduce_struct: bool = False)

使用一组或多组键将 tensordict 分割成子集。

该方法将返回 N+1 个 tensordict,其中 N 是提供的参数数量。

参数:
  • inplace (bool, optional) – 如果为 True,则就地从 self 中删除键。默认值为 False

  • strict (bool, optional) – 如果为 True,则当缺少键时会引发异常。默认值为 True

  • reproduce_struct (bool, optional) – 如果为 True,则返回的所有 tensordict 都有与 self 相同的树结构,即使某些子 tensordict 不包含叶子。

注意

None 非张量值将被忽略,不会返回。

注意

该方法不检查提供的列表中的重复项。

示例

>>> td = TensorDict(
...     a=0,
...     b=0,
...     c=0,
...     d=0,
... )
>>> td_a, td_bc, td_d = td.split_keys(["a"], ["b", "c"])
>>> print(td_bc)
sqrt()

计算 self 的逐元素平方根。

sqrt_()

sqrt() 的就地版本。

squeeze(*args, **kwargs)

压缩 -self.batch_dims+1self.batch_dims-1 之间所有维度的张量,并将它们返回到一个新的 tensordict 中。

参数:

dim (Optional[int]) – 要沿其压缩的维度。如果 dim 为 None,则将压缩所有单一维度。默认值为 None

示例

>>> td = TensorDict({
...     'x': torch.arange(24).reshape(3, 1, 4, 2),
... }, batch_size=[3, 1, 4])
>>> td = td.squeeze()
>>> td.shape
torch.Size([3, 4])
>>> td.get("x").shape
torch.Size([3, 4, 2])

此操作也可以用作上下文管理器。对原始 tensordict 的更改将发生在外部,即原始张量的内容不会改变。这也假设 tensordict 没有被锁定(否则,需要解锁 tensordict)。此功能与隐式压缩不兼容。

>>> td = TensorDict({
...     'x': torch.arange(24).reshape(3, 1, 4, 2),
... }, batch_size=[3, 1, 4])
>>> with td.squeeze(1) as tds:
...     tds.set("y", torch.zeros(3, 4))
>>> assert td.get("y").shape == [3, 1, 4]
classmethod stack(input, dim=0, *, out=None)

将 tensordict 沿给定维度堆叠成一个 tensordict。

此调用等效于调用 torch.stack(),但与 torch.compile 兼容。

state_dict(*args, destination=None, prefix='', keep_vars=False, flatten=True)

从 tensordict 生成 state_dict。

除非将 flatten 设置为 True,否则 state-dict 的结构将仍然是嵌套的。

tensordict state-dict 包含重建 tensordict 所需的所有张量和元数据(目前不支持名称)。

参数:
  • destination (dict, optional) – 如果提供,tensordict 的状态将更新到字典中,并返回相同的对象。否则,将创建一个 OrderedDict 并返回。默认值:None

  • prefix (str, optional) – 添加到张量名称的前缀,用于组成 state_dict 中的键。默认值:''

  • keep_vars (bool, optional) – 默认情况下,state dict 中返回的 torch.Tensor 项目与自动梯度分离。如果设置为 True,则不会执行分离。默认值:False

  • flatten (bool, optional) – 结构是否应该用 "." 字符扁平化。默认为 False

示例

>>> data = TensorDict({"1": 1, "2": 2, "3": {"3": 3}}, [])
>>> sd = data.state_dict()
>>> print(sd)
OrderedDict([('1', tensor(1)), ('2', tensor(2)), ('3', OrderedDict([('3', tensor(3)), ('__batch_size', torch.Size([])), ('__device', None)])), ('__batch_size', torch.Size([])), ('__device', None)])
>>> sd = data.state_dict(flatten=True)
OrderedDict([('1', tensor(1)), ('2', tensor(2)), ('3.3', tensor(3)), ('__batch_size', torch.Size([])), ('__device', None)])
std(dim: int | Tuple[int] = _NoDefault.ZERO, keepdim: bool = _NoDefault.ZERO, *, correction: int = 1, reduce: bool | None = None) TensorDictBase | torch.Tensor

返回输入 tensordict 中所有元素的标准差值。

参数:
  • dim (int, tuple of int, optional) – 如果为 None,则返回一个无维 tensordict,包含所有叶节点的求和值(如果可以计算)。如果是整数或整数元组,则仅当此维度与 tensordict 形状兼容时,才会在指定的维度上调用 std

  • keepdim (bool) – 输出张量是否保留维度。

关键字参数:
  • correction (int) – 样本大小和样本自由度之间的差值。默认为 Bessel 校正,correction=1。

  • reduce (bool, optional) – 如果为True,则缩减将在所有 TensorDict 值上进行,并将返回单个缩减张量。默认为False

sub(other: TensorDictBase | float, *, alpha: float | None = None, default: str | CompatibleType | None = None)

self 中减去 other,并乘以 alpha

\[\text{{out}}_i = \text{{input}}_i - \text{{alpha}} \times \text{{other}}_i\]

支持广播、类型提升以及整数、浮点数和复数输入。

参数:

other (TensorDict, Tensor or Number) – 要从 self 中减去的张量或数字。

关键字参数:
  • alpha (Number) – other 的乘数。

  • default (torch.Tensorstr, 可选) – 用于独占条目默认值。如果未提供,则两个 tensordict 的键列表必须完全匹配。如果传递 default="intersection",则仅考虑相交键集,其他键将被忽略。在所有其他情况下,将使用 default 用于操作两侧的所有缺失条目。

sub_(other: TensorDictBase | float, alpha: float | None = None)

sub() 的就地版本。

注意

就地 sub 不支持 default 关键字参数。

sum(dim: int | Tuple[int] = _NoDefault.ZERO, keepdim: bool = _NoDefault.ZERO, *, dtype: torch.dtype | None = None, reduce: bool | None = None) TensorDictBase | torch.Tensor

返回输入 tensordict 中所有元素的求和值。

参数:
  • dim (int, tuple of int, optional) – 如果为 None,则返回一个无量纲的 tensordict,包含所有叶子值的总和(如果可以计算)。 如果是整数或整数元组,则仅当此维度与 tensordict 形状兼容时,才会在指定的维度上调用 sum

  • keepdim (bool) – 输出张量是否保留维度。

关键字参数:
  • dtype (torch.dtype, optional) – 返回张量的所需数据类型。如果指定,则在执行操作之前将输入张量转换为 dtype。这有助于防止数据类型溢出。默认值:None

  • reduce (bool, optional) – 如果为True,则缩减将在所有 TensorDict 值上进行,并将返回单个缩减张量。默认为False

tan() T

计算 TensorDict 中每个元素的 tan() 值。

tan_() T

对 TensorDict 中的每个元素进行 tan() 操作。

tanh() T

计算 TensorDict 中每个元素的 tanh() 值。

tanh_() T

对 TensorDict 中的每个元素进行 tanh() 操作。

to(*args, **kwargs) TensorDictBase

将 TensorDictBase 子类映射到其他设备、dtype 或其他 TensorDictBase 子类(如果允许)。

不允许将张量强制转换为新的 dtype,因为 tensordict 不绑定到包含单个张量 dtype。

参数:
  • device (torch.device, 可选) – tensordict 的目标设备。

  • dtype (torch.dtype, 可选) – tensordict 的目标浮点型或复数型 dtype。

  • tensor (torch.Tensor, 可选) – 其 dtype 和设备是此 TensorDict 中所有张量的目标 dtype 和设备的张量。

关键字参数:
  • non_blocking (bool, 可选) – 操作是否应阻塞。

  • memory_format (torch.memory_format, 可选) – 此 tensordict 中 4D 参数和缓冲区的目标内存格式。

  • batch_size (torch.Size, 可选) – 输出 tensordict 的目标批大小。

  • other (TensorDictBase, 可选) –

    其 dtype 和设备是此 TensorDict 中所有张量的目标 dtype 和设备的 TensorDict 实例。 .. 注意:: 由于 TensorDictBase 实例没有

    dtype,因此从示例叶子中收集 dtype。如果有多个 dtype,则不进行 dtype 转换。

  • non_blocking_pin (bool, 可选) –

    如果为 True,则在将张量发送到设备之前将其固定。这将异步完成,但可以通过 num_threads 参数进行控制。

    注意

    调用 tensordict.pin_memory().to("cuda") 通常比 tensordict.to("cuda", non_blocking_pin=True) 慢得多,因为在第二种情况下,pin_memory 是异步调用的。如果张量很大且数量众多,多线程 pin_memory 通常会有益:当要发送的张量太少时,生成线程和收集数据的开销超过了多线程的好处,如果张量很小,遍历长列表的开销也会过大。

  • num_threads (intNone, 可选) – 如果 non_blocking_pin=True,则用于 pin_memory 的线程数。默认情况下,将生成 max(1, torch.get_num_threads()) 个线程。 num_threads=0 将取消对 pin_memory() 调用的任何多线程。

返回值::

如果设备与 tensordict 设备不同,或者传递了 dtype,则是一个新的 tensordict 实例。否则为相同的 tensordict。 batch_size 的修改仅在原位完成。

注意

如果 TensorDict 已合并,则生成的 TensorDict 也会合并。每个新的张量都将是对合并存储的视图,并强制转换为目标设备。

示例

>>> data = TensorDict({"a": 1.0}, [], device=None)
>>> data_cuda = data.to("cuda:0")  # casts to cuda
>>> data_int = data.to(torch.int)  # casts to int
>>> data_cuda_int = data.to("cuda:0", torch.int)  # multiple casting
>>> data_cuda = data.to(torch.randn(3, device="cuda:0"))  # using an example tensor
>>> data_cuda = data.to(other=TensorDict({}, [], device="cuda:0"))  # using a tensordict example
to_dict() dict[str, Any]

返回一个字典,其中键值对与 tensordict 的键值对匹配。

to_empty(*, device: Optional[Union[device, str, int]], recurse: bool = True) T

将参数和缓冲区移动到指定的设备,而不复制存储空间。

参数:
  • device (torch.device) – 此模块中参数和缓冲区的目标设备。

  • recurse (bool) – 是否应将子模块的参数和缓冲区递归地移动到指定的设备。

返回值::

self

返回类型:

模块

to_h5(filename, **kwargs)

将 tensordict 转换为具有 h5 后端的 PersistentTensorDict。

参数:
  • filename (strpath) – h5 文件的路径。

  • device (torch.device兼容, 可选) – 返回张量后预期的设备。默认值为 None(默认情况下在 cpu 上)。

  • **kwargs – 要传递给 h5py.File.create_dataset() 的关键字参数。

返回值::

一个与新创建的文件链接的 PersitentTensorDict 实例。

示例

>>> import tempfile
>>> import timeit
>>>
>>> from tensordict import TensorDict, MemoryMappedTensor
>>> td = TensorDict({
...     "a": MemoryMappedTensor.from_tensor(torch.zeros(()).expand(1_000_000)),
...     "b": {"c": MemoryMappedTensor.from_tensor(torch.zeros(()).expand(1_000_000, 3))},
... }, [1_000_000])
>>>
>>> file = tempfile.NamedTemporaryFile()
>>> td_h5 = td.to_h5(file.name, compression="gzip", compression_opts=9)
>>> print(td_h5)
PersistentTensorDict(
    fields={
        a: Tensor(shape=torch.Size([1000000]), device=cpu, dtype=torch.float32, is_shared=False),
        b: PersistentTensorDict(
            fields={
                c: Tensor(shape=torch.Size([1000000, 3]), device=cpu, dtype=torch.float32, is_shared=False)},
            batch_size=torch.Size([1000000]),
            device=None,
            is_shared=False)},
    batch_size=torch.Size([1000000]),
    device=None,
    is_shared=False)
to_module(module: nn.Module, *, inplace: bool | None = None, return_swap: bool = True, swap_dest=None, use_state_dict: bool = False, non_blocking: bool = False, memo=None)

递归地将 TensorDictBase 实例的内容写入给定 nn.Module 的属性。

参数:

module (nn.Module) – 要写入参数的模块。

关键字参数:
  • inplace (bool, 可选) – 如果为 True,则模块中的参数或张量将被更新。默认值为 False

  • return_swap (bool, 可选) – 如果为 True,则将返回旧的参数配置。默认值为 False

  • swap_dest (TensorDictBase, optional) – 如果 return_swapTrue,则为应写入交换的 tensordict。

  • use_state_dict (bool, optional) – 如果 True,则将使用状态字典 API 加载参数(包括状态字典钩子)。默认值为 False

  • non_blocking (bool, optional) – 如果 True 并且此副本位于不同的设备之间,则副本可能与主机异步发生。

示例

>>> from torch import nn
>>> module = nn.TransformerDecoder(
...     decoder_layer=nn.TransformerDecoderLayer(nhead=4, d_model=4),
...     num_layers=1)
>>> params = TensorDict.from_module(module)
>>> params.zero_()
>>> params.to_module(module)
>>> assert (module.layers[0].linear1.weight == 0).all()
to_namedtuple(dest_cls: type | None = None)

将 tensordict 转换为命名元组。

参数:

dest_cls (Type, optional) – 要使用的可选命名元组类。

示例

>>> from tensordict import TensorDict
>>> import torch
>>> data = TensorDict({
...     "a_tensor": torch.zeros((3)),
...     "nested": {"a_tensor": torch.zeros((3)), "a_string": "zero!"}}, [3])
>>> data.to_namedtuple()
GenericDict(a_tensor=tensor([0., 0., 0.]), nested=GenericDict(a_tensor=tensor([0., 0., 0.]), a_string='zero!'))
to_padded_tensor(padding=0.0, mask_key: NestedKey | None = None)

将所有嵌套张量转换为填充版本,并相应地调整批次大小。

参数:
  • padding (float) – tensordict 中张量的填充值。默认值为 0.0

  • mask_key (NestedKey, optional) – 如果提供,则为写入有效值掩码的键。如果异构维度不是 tensordict 批次大小的一部分,将导致错误。默认值为 None

to_pytree()

将 tensordict 转换为 PyTree。

如果 tensordict 不是从 pytree 创建的,则此方法仅返回 self,不进行修改。

有关更多信息和示例,请参见 from_pytree()

to_tensordict()

从 TensorDictBase 返回一个常规的 TensorDict 实例。

返回值::

一个包含相同值的新 TensorDict 对象。

train(mode: bool = True) T

将模块设置为训练模式。

这仅对某些模块有效。有关特定模块在训练/评估模式下的行为细节,请参阅其文档,如果它们受影响,例如 DropoutBatchNorm 等。

参数:

mode (bool) – 是否设置训练模式 (True) 或评估模式 (False)。默认值:True

返回值::

self

返回类型:

模块

transpose(dim0, dim1)

返回一个 tensordict,它是输入的转置版本。给定的维度 dim0dim1 已交换。

转置 tensordict 的就地或非就地修改也将影响原始 tensordict,因为内存是共享的,并且操作映射回原始 tensordict。

示例

>>> tensordict = TensorDict({"a": torch.randn(3, 4, 5)}, [3, 4])
>>> tensordict_transpose = tensordict.transpose(0, 1)
>>> print(tensordict_transpose.shape)
torch.Size([4, 3])
>>> tensordict_transpose.set("b",, torch.randn(4, 3))
>>> print(tensordict.get("b").shape)
torch.Size([3, 4])
trunc() T

计算 TensorDict 的每个元素的 trunc() 值。

trunc_() T

就地计算 TensorDict 的每个元素的 trunc() 值。

type(dst_type)

将所有张量转换为 dst_type

参数:

dst_type (type or string) – 目标类型

uint16()

将所有张量转换为 torch.uint16

uint32()

将所有张量转换为 torch.uint32

uint64()

将所有张量转换为 torch.uint64

uint8()

将所有张量转换为 torch.uint8

unbind(dim: int) tuple[T, ...]

返回索引 tensordict 的元组,沿着指示的维度解绑。

示例

>>> td = TensorDict({
...     'x': torch.arange(12).reshape(3, 4),
... }, batch_size=[3, 4])
>>> td0, td1, td2 = td.unbind(0)
>>> td0['x']
tensor([0, 1, 2, 3])
>>> td1['x']
tensor([4, 5, 6, 7])
unflatten(dim, unflattened_size)

将 tensordict 展开,将其扩展到所需的形状。

参数:
  • dim (int) – 指定要展开的输入张量的维度。

  • unflattened_size (shape) – 是 tensordict 展开维度的新的形状。

示例

>>> td = TensorDict({
...     "a": torch.arange(60).view(3, 4, 5),
...     "b": torch.arange(12).view(3, 4)},
...     batch_size=[3, 4])
>>> td_flat = td.flatten(0, 1)
>>> td_unflat = td_flat.unflatten(0, [3, 4])
>>> assert (td == td_unflat).all()
unflatten_keys(separator: str = '.', inplace: bool = False) TensorDictBase

将扁平 tensordict 递归地转换为嵌套 tensordict。

TensorDict 类型将丢失,结果将是一个简单的 TensorDict 实例。嵌套 tensordict 的元数据将从根推断:数据树中的所有实例将共享相同的批次大小、维度名称和设备。

参数:
  • separator (str, 可选) – 嵌套项之间的分隔符。

  • inplace (bool, 可选) – 如果为 True,则生成的 tensordict 将与调用所在的 tensordict 具有相同的标识。默认值为 False

示例

>>> data = TensorDict({"a": 1, "b - c": 2, "e - f - g": 3}, batch_size=[])
>>> data.unflatten_keys(separator=" - ")
TensorDict(
    fields={
        a: Tensor(shape=torch.Size([]), device=cpu, dtype=torch.int64, is_shared=False),
        b: TensorDict(
            fields={
                c: Tensor(shape=torch.Size([]), device=cpu, dtype=torch.int64, is_shared=False)},
            batch_size=torch.Size([]),
            device=None,
            is_shared=False),
        e: TensorDict(
            fields={
                f: TensorDict(
                    fields={
                        g: Tensor(shape=torch.Size([]), device=cpu, dtype=torch.int64, is_shared=False)},
                    batch_size=torch.Size([]),
                    device=None,
                    is_shared=False)},
            batch_size=torch.Size([]),
            device=None,
            is_shared=False)},
    batch_size=torch.Size([]),
    device=None,
    is_shared=False)

此方法和 unflatten_keys() 在处理状态字典时特别有用,因为它们使您可以将扁平字典无缝转换为模拟模型结构的数据结构。

示例

>>> model = torch.nn.Sequential(torch.nn.Linear(3 ,4))
>>> ddp_model = torch.ao.quantization.QuantWrapper(model)
>>> state_dict = TensorDict(ddp_model.state_dict(), batch_size=[]).unflatten_keys(".")
>>> print(state_dict)
TensorDict(
    fields={
        module: TensorDict(
            fields={
                0: TensorDict(
                    fields={
                        bias: Tensor(shape=torch.Size([4]), device=cpu, dtype=torch.float32, is_shared=False),
                        weight: Tensor(shape=torch.Size([4, 3]), device=cpu, dtype=torch.float32, is_shared=False)},
                    batch_size=torch.Size([]),
                    device=None,
                    is_shared=False)},
            batch_size=torch.Size([]),
            device=None,
            is_shared=False)},
    batch_size=torch.Size([]),
    device=None,
    is_shared=False)
>>> model_state_dict = state_dict.get("module")
>>> print(model_state_dict)
TensorDict(
    fields={
        0: TensorDict(
            fields={
                bias: Tensor(shape=torch.Size([4]), device=cpu, dtype=torch.float32, is_shared=False),
                weight: Tensor(shape=torch.Size([4, 3]), device=cpu, dtype=torch.float32, is_shared=False)},
            batch_size=torch.Size([]),
            device=None,
            is_shared=False)},
    batch_size=torch.Size([]),
    device=None,
    is_shared=False)
>>> model.load_state_dict(dict(model_state_dict.flatten_keys(".")))
unlock_() T

解锁 tensordict 以进行非就地操作。

可以用作装饰器。

有关更多详细信息,请参见 lock_()

unsqueeze(*args, **kwargs)

为位于 -td.batch_dimstd.batch_dims 之间的维度unsqueeze 所有张量,并在新的 tensordict 中返回它们。

参数:

dim (int) – 要 unsqueeze 的维度

示例

>>> td = TensorDict({
...     'x': torch.arange(24).reshape(3, 4, 2),
... }, batch_size=[3, 4])
>>> td = td.unsqueeze(-2)
>>> td.shape
torch.Size([3, 1, 4])
>>> td.get("x").shape
torch.Size([3, 1, 4, 2])

此操作也可以用作上下文管理器。对原始 tensordict 的更改将发生在非就地,即原始张量的内容将不会被改变。这也假定 tensordict 未锁定(否则,需要解锁 tensordict)。

>>> td = TensorDict({
...     'x': torch.arange(24).reshape(3, 4, 2),
... }, batch_size=[3, 4])
>>> with td.unsqueeze(-2) as tds:
...     tds.set("y", torch.zeros(3, 1, 4))
>>> assert td.get("y").shape == [3, 4]
update(input_dict_or_td: dict[str, CompatibleType] | TensorDictBase, clone: bool = False, inplace: bool = False, *, non_blocking: bool = False, keys_to_update: Sequence[NestedKey] | None = None, is_leaf: Callable[[Type], bool] | None = None) TensorDictBase

使用字典或另一个 TensorDict 中的值更新 TensorDict。

参数:
  • input_dict_or_td (TensorDictBasedict) – 要写入 self 的输入数据。

  • clone (bool, optional) – 输入 (张量) 字典中的张量在设置之前是否应该克隆。默认值为 False

  • inplace (bool, optional) – 如果为 True 且键与 tensordict 中的现有键匹配,则该键值对的更新将在原位进行。如果找不到条目,则会添加该条目。默认值为 False

关键字参数:
  • keys_to_update (嵌套键的序列, optional) – 如果提供,则仅更新 key_to_update 中的键列表。这旨在避免调用 data_dest.update(data_src.select(*keys_to_update))

  • non_blocking (bool, optional) – 如果 True 并且此副本位于不同的设备之间,则副本可能与主机异步发生。

  • is_leaf (Callable[[Type], bool], optional) – 一个可调用对象,指示对象类型是否被视为叶子并被交换或张量集合。

返回值::

self

示例

>>> td = TensorDict({}, batch_size=[3])
>>> a = torch.randn(3)
>>> b = torch.randn(3, 4)
>>> other_td = TensorDict({"a": a, "b": b}, batch_size=[])
>>> td.update(other_td, inplace=True) # writes "a" and "b" even though they can't be found
>>> assert td['a'] is other_td['a']
>>> other_td = other_td.clone().zero_()
>>> td.update(other_td)
>>> assert td['a'] is not other_td['a']
update_(input_dict_or_td: dict[str, CompatibleType] | T, clone: bool = False, *, non_blocking: bool = False, keys_to_update: Sequence[NestedKey] | None = None) T

使用字典或另一个 TensorDict 中的值在原位更新 TensorDict。

update() 不同,如果键对 self 未知,则此函数将抛出错误。

参数:
  • input_dict_or_td (TensorDictBasedict) – 要写入 self 的输入数据。

  • clone (bool, optional) – 输入 (张量) 字典中的张量在设置之前是否应该克隆。默认值为 False

关键字参数:
  • keys_to_update (嵌套键的序列, optional) – 如果提供,则仅更新 key_to_update 中的键列表。这旨在避免调用 data_dest.update_(data_src.select(*keys_to_update))

  • non_blocking (bool, optional) – 如果 True 并且此副本位于不同的设备之间,则副本可能与主机异步发生。

返回值::

self

示例

>>> a = torch.randn(3)
>>> b = torch.randn(3, 4)
>>> td = TensorDict({"a": a, "b": b}, batch_size=[3])
>>> other_td = TensorDict({"a": a*0, "b": b*0}, batch_size=[])
>>> td.update_(other_td)
>>> assert td['a'] is not other_td['a']
>>> assert (td['a'] == other_td['a']).all()
>>> assert (td['a'] == 0).all()
update_at_(input_dict_or_td: dict[str, CompatibleType] | T, idx: IndexType, clone: bool = False, *, non_blocking: bool = False, keys_to_update: Sequence[NestedKey] | None = None) T

在指定索引处使用字典或另一个 TensorDict 中的值在原位更新 TensorDict。

与 TensorDict.update 不同,如果键对 TensorDict 未知,则此函数将抛出错误。

参数:
  • input_dict_or_td (TensorDictBasedict) – 要写入 self 的输入数据。

  • idx (int, torch.Tensor, iterable, slice) – 应进行更新的 tensordict 的索引。

  • clone (bool, optional) – 输入 (张量) 字典中的张量在设置之前是否应该克隆。默认值为 False

关键字参数:
  • keys_to_update (嵌套键的序列, optional) – 如果提供,则仅更新 key_to_update 中的键列表。

  • non_blocking (bool, optional) – 如果 True 并且此副本位于不同的设备之间,则副本可能与主机异步发生。

返回值::

self

示例

>>> td = TensorDict({
...     'a': torch.zeros(3, 4, 5),
...     'b': torch.zeros(3, 4, 10)}, batch_size=[3, 4])
>>> td.update_at_(
...     TensorDict({
...         'a': torch.ones(1, 4, 5),
...         'b': torch.ones(1, 4, 10)}, batch_size=[1, 4]),
...    slice(1, 2))
TensorDict(
    fields={
        a: Tensor(torch.Size([3, 4, 5]), dtype=torch.float32),
        b: Tensor(torch.Size([3, 4, 10]), dtype=torch.float32)},
    batch_size=torch.Size([3, 4]),
    device=None,
    is_shared=False)
>>> assert (td[1] == 1).all()
values(include_nested: bool = False, leaves_only: bool = False, is_leaf: Callable[[Type], bool] | None = None) Iterator[CompatibleType]

返回一个表示 tensordict 值的生成器。

参数:
  • include_nested (bool, optional) – 如果为 True,则返回嵌套的值。默认为 False

  • leaves_only (bool, optional) – 如果为 False,则只返回叶子。默认为 False

  • is_leaf – 一个可选的可调用函数,用于指示某个类是否被认为是叶子。

var(dim: int | Tuple[int] = _NoDefault.ZERO, keepdim: bool = _NoDefault.ZERO, *, correction: int = 1, reduce: bool | None = None) TensorDictBase | torch.Tensor

返回输入 tensordict 中所有元素的方差值。

参数:
  • dim (int, tuple of int, optional) – 如果为 None,则返回一个无维 tensordict,其中包含所有叶子的总和值(如果可以计算)。如果是整数或整数元组,则仅当此维度与 tensordict 形状兼容时,才在指定的维度上调用 var

  • keepdim (bool) – 输出张量是否保留维度。

关键字参数:
  • correction (int) – 样本大小和样本自由度之间的差值。默认为 Bessel 校正,correction=1。

  • reduce (bool, optional) – 如果为True,则缩减将在所有 TensorDict 值上进行,并将返回单个缩减张量。默认为False

view(*shape: int, size: list | tuple | torch.Size | None = None, batch_size: torch.Size | None = None)

返回一个 tensordict,其中包含根据新形状对张量的视图,与 tensordict batch_size 兼容。

或者,可以将 dtype 作为第一个未命名参数提供。在这种情况下,所有张量都将使用相应的 dtype 进行查看。请注意,这假定新形状与提供的 dtype 兼容。有关 dtype 视图的更多信息,请参见 view()

参数:
  • *shape (int) – 结果 tensordict 的新形状。

  • dtype (torch.dtype) – 或者,用于表示张量内容的 dtype。

  • size – 可迭代对象

关键字参数:

batch_size (torch.Size, optional) – 如果提供了 dtype,则可以使用此关键字参数重置 batch_size。如果 view 使用形状调用,则此参数无效。

返回值::

一个具有所需 batch_size 的新 tensordict。

示例

>>> td = TensorDict(source={'a': torch.zeros(3,4,5),
...    'b': torch.zeros(3,4,10,1)}, batch_size=torch.Size([3, 4]))
>>> td_view = td.view(12)
>>> print(td_view.get("a").shape)  # torch.Size([12, 5])
>>> print(td_view.get("b").shape)  # torch.Size([12, 10, 1])
>>> td_view = td.view(-1, 4, 3)
>>> print(td_view.get("a").shape)  # torch.Size([1, 4, 3, 5])
>>> print(td_view.get("b").shape)  # torch.Size([1, 4, 3, 10, 1])
where(condition, other, *, out=None, pad=None)

返回一个 TensorDict,其中包含从 self 或 other 中选择的元素,具体取决于条件。

参数:
  • condition (BoolTensor) – 当为 True(非零)时,生成 self,否则生成 other

  • other (TensorDictBase or Scalar) – 值(如果 other 是一个标量)或在条件为 False 的索引处选择的元素。

关键字参数:
  • out (TensorDictBase, optional) – 输出 TensorDictBase 实例。

  • pad (scalar, optional) – 如果提供,则源或目标 tensordict 中缺少的键将被写入为 torch.where(mask, self, pad)torch.where(mask, pad, other)。默认为 None,即缺少键不受支持。

xpu(device: Optional[Union[int, device]] = None) T

将所有模型参数和缓冲区移动到 XPU。

这也使关联的参数和缓冲区成为不同的对象。因此,如果模块在优化时将位于 XPU 上,则应在构造优化器之前调用此函数。

注意

此方法将就地修改模块。

参数:

device (int, optional) – 如果指定,所有参数都将复制到该设备

返回值::

self

返回类型:

模块

zero_() T

在 tensordict 中对所有张量进行就地置零。

zero_grad(set_to_none: bool = True) T

递归地将 TensorDict 中所有梯度置零。

参数:

set_to_none (bool, optional) – 如果为 True,则 tensor.grad 将为 None,否则为 0。默认为 True

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取适用于初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源