torch.nn.attention¶ 此模块包含修改 torch.nn.functional.scaled_dot_product_attention 行为的函数和类 工具函数¶ sdpa_kernel 用于选择缩放点积注意力要使用哪个后端的上下文管理器。 SDPBackend 一个类似枚举的类,包含缩放点积注意力的不同后端。 子模块¶ flex_attention 此模块实现了 PyTorch 中 flex_attention 的面向用户 API。 偏置 定义了与 scaled_dot_product_attention 配合使用的偏置子类 实验性