torch.nn.attention¶ 此模块包含修改 torch.nn.functional.scaled_dot_product_attention 行为的函数和类 实用工具¶ sdpa_kernel 上下文管理器,用于选择哪个后端用于缩放点积注意力。 SDPBackend 一个类似枚举的类,包含缩放点积注意力的不同后端。 子模块¶ flex_attention 此模块在 PyTorch 中实现了 flex_attention 的用户界面 API。 bias 定义与 scaled_dot_product_attention 一起工作的偏置子类 experimental