torch.cuda.comm.broadcast_coalesced¶
- torch.cuda.comm.broadcast_coalesced(tensors, devices, buffer_size=10485760)[源代码][源代码]¶
将一系列张量广播到指定的 GPU。
小张量首先被合并到一个缓冲区中,以减少同步次数。
- 参数
tensors (序列) – 要广播的张量。必须在同一设备上,无论是 CPU 还是 GPU。
devices (Iterable[torch.device, str 或 int]) – GPU 设备的迭代器,将在这些设备中进行广播。
buffer_size (int) – 用于合并的缓冲区的最大大小
- 返回
一个元组,包含
tensor
的副本,放置在devices
上。