Backend 和 Delegate¶
受众:供应商、Backend Delegate 开发者,他们有兴趣将自己的编译器和硬件集成到 ExecuTorch 中
Backend 委托是后端处理和执行 PyTorch 程序的入口点,旨在利用专用后端和硬件的性能和效率优势,同时仍为 PyTorch 用户提供接近 PyTorch 运行时的体验。
Backend 接口:概述¶
在高层面上,后端的入口点由 2 个组件定义
用于表示程序的 IR:Edge Dialect(通过
to_edge
API 生成)后端需要实现的几个接口
Ahead-of-Time (AOT)
程序预处理(例如,提前编译、转换、优化...)。
运行时
程序初始化(例如,运行时编译)。
程序执行。
(可选)程序销毁(例如,释放后端拥有的资源)。
Delegate 后端实现由以下部分组成
提前预处理接口
运行时初始化和执行接口
图表如下所示
data:image/s3,"s3://crabby-images/e8212/e82123d225843839c71be827608779a169394ccc" alt="drawing"
图 1. 后端接口入口点的高层视图,包括提前和运行时。
Backend 接口:提前预处理¶
后端主要有两个提前入口点需要实现:partition
和 preprocess
。
partitioner
是后端实现的算法,用于标记要降低到后端的节点。to_backend
API 将应用分区算法,并将每个子图(由连接的标记节点组成)降低到目标后端。每个子图将被发送到后端提供的 preprocess
部分,编译为二进制 Blob。
在分区期间,exported_program
不允许改变程序,它应该将标签应用于每个节点。PartitionResult
包括标记的导出程序和分区标签字典,供 to_backend
查找标签并链接到 backend_id
和 compile_spec
def partition(
exported_program: ExportedProgram,
) -> PartitionResult:
在预处理期间,后端会获得一个 edge dialect 程序、一个指定编译所需值的编译规范列表,并期望返回一个编译后的 Blob 或二进制文件,其中包含要在后端运行的所需程序。在序列化期间,编译后的 Blob 将作为 .pte
文件的一部分进行序列化,并直接加载到设备。此过程的 API 是
def preprocess(
edge_program: ExportedProgram,
compile_specs: List[CompileSpec],
) -> PreprocessResult:
preprocess 函数的演示实现 here。该演示循环遍历 edge_program
的图模块中的节点,并将 add
、mul
和 sin
指令序列化为字符串,该字符串稍后将在运行时解析和执行。
图表如下所示
data:image/s3,"s3://crabby-images/1ea2a/1ea2a29adc1cde90dc8fa20b2867d101fdde083f" alt="drawing"
图 2. 图经过分区,每个子图将被发送到预处理部分。
Backend 接口:运行时初始化和执行¶
在运行时,来自 preprocess
函数的编译后的 Blob 将被加载并直接传递给后端的自定义 init
函数。此函数负责进一步处理编译单元,以及执行任何后端初始化。然后将调用后端的自定义 execute
函数来执行 init
生成的句柄。最后,如果某些后端需要销毁,后端可以实现一个 destroy
函数,该函数将在程序超出其生命周期时被调用。
// Runtime check
ET_NODISCARD bool is_available();
// Runtime initialization
ET_NODISCARD virtual Result<DelegateHandle*> init(
BackendInitContext& context,
FreeableBuffer* processed,
ArrayRef<CompileSpec> compile_specs);
// Runtime execution
ET_NODISCARD virtual Error execute(
BackendExecutionContext& context,
DelegateHandle* handle,
EValue** args);
// [optional] Runtime destroy. Destroy the resource held by the backend
virtual void destroy(ET_UNUSED DelegateHandle* handle);
图表如下所示
data:image/s3,"s3://crabby-images/269ef/269ef8461d5a907232b0ccdd0bb6062c6508a46f" alt="drawing"
图 3. 标准 ExecuTorch 运行时和后端入口点之间的关系。
为了使后端可用于 ExecuTorch 运行时,必须通过 register_backend
API 注册
ET_NODISCARD Error register_backend(const Backend& backend);
可以按如下方式实现后端的静态注册,即在库初始化或加载时进行注册
namespace {
auto cls = BackendWithCompiler();
Backend backend{"BackendWithCompilerDemo", &cls};
static auto success_with_compiler = register_backend(backend);
} // namespace
开发者工具集成:可调试性¶
提供一致的调试体验非常重要,无论是针对运行时故障还是性能分析。ExecuTorch 采用原生开发者工具来实现此目的,这使得可以通过调试句柄将程序指令与原始 PyTorch 代码关联起来。您可以在 这里 阅读更多相关信息。
委托程序或子图对 ExecuTorch 运行时是不透明的,并显示为特殊的 call_delegate
指令,该指令要求相应的后端处理子图或程序的执行。由于后端 delegate 的不透明性,原生开发者工具无法查看委托程序。因此,与非委托的对应程序相比,委托执行的调试、功能或性能体验会受到很大影响。
为了向用户提供一致的调试体验,无论模型是否使用委托,开发者工具都提供了一个接口,用于将委托(子)图与原始(子)图关联起来。开发者工具通过调试句柄映射来实现这一点,该映射允许 delegate 生成可以与 delegate 使用的原始(子)图关联的内部句柄。然后在运行时,后端开发者可以使用内部句柄报告错误或性能分析信息,这些信息将使用调试句柄映射映射到原始(子)图。有关更多信息,请参阅 Delegate 调试。
通过利用调试标识符,后端开发者可以将调试嵌入为委托 Blob 的一部分
data:image/s3,"s3://crabby-images/a5078/a5078be7d10d7ae1e3f304455fdafd0db25690ac" alt="drawing"
这样,在执行阶段,通过调试标识符,后端开发者可以将 delegate 内部的失败指令关联回 Python 代码的确切行。
data:image/s3,"s3://crabby-images/6ada1/6ada16887559125941cc69e9582a2018190790ff" alt="drawing"
常见问题¶
1. 我们如何在 backend.preprocess 中获取数据?
正在预处理的图模块是一个提升图,这意味着静态数据(如权重和偏置)作为图的输入提供。但是,我们可以通过导出的程序提前访问权重和偏置。要从给定节点访问这些参数,我们可以使用 torch/_export/utils.py
中提供的 get_params
函数
2. 我们如何将数据(如权重/偏置)嵌入到后端?
通常,后端有一些方法可以优化常量数据。在这种情况下,我们需要标记占位符节点(它们也是 partitioner 中的状态),在 backend.preprocess 期间,我们可以按照第一个问题中的描述获取权重。
3. 我们如何在 Python 中使用特定的后端运行降低后的模块?
我们尚未添加支持,但这在计划中!
4. 我们是否应该在 edge dialect 程序中看到 get_attr
节点?
get_attr
节点仅会出现在用于控制流或委托的子模块中。它不会保存任何数据。
5. 我们可以委托给多个后端吗?
是的!有两种方法可以做到这一点
选项 1:针对不同的后端多次运行 to_backend
如果我们有两个后端,backend_1 和 backend_2,并且它们有自己的 partitioner:backend_1_partitioner 和 backend_2_partitioner,我们可以像这样运行它
# Will first lower nodes to backend_1 depending on the backend_1_parititioner depending on partitioner algorithm
exported_program_backend_1 = to_backend(exported_program, backend_1_parititioner())
# For the rest of nodes, they will be lowered to backend_2 depending on backend_2_parititioner
exported_program_backend_1_and_2 = to_backend(exported_program_backend_1, backend_2_parititioner())
可以在 here 找到更具体的示例。在本例中,qnnpack 是一个后端,xnnpack 是另一个后端。我们尚未开源这两个后端 delegate,此示例无法直接运行。它可以作为参考,了解如何完成此操作。
此选项易于尝试,因为通常所有后端都会实现自己的 partitioner。但是,如果我们更改 to_backend 调用的顺序,此选项可能会得到不同的结果。如果我们想更好地控制节点,例如它们应该去哪个后端,选项 2 更好。
选项 2:使用一个 partitioner 为不同的后端分区
另一种选择是创建一个自定义的 partitioner,例如 partitioner backend_1_2_partitioner
,并在 partitioner 逻辑内部,
class Backend_1_2_Partitioner(Partitioner):
"""
Partitions all add/mul nodes regardless of order for Backend2
"""
def __init__(self) -> None:
self.delegation_spec_1 = DelegationSpec("Backend1", [])
self.delegation_spec_2 = DelegationSpec("Backend2", [])
self.partition_tags = {}
def partition(
self, exported_program: ExportedProgram
) -> ExportedProgram:
# Tag all nodes in the first partiton to backend 1
node_to_backend_1 = ... # some logic to select the nodes from the graph
delegation_tag = f"backend2_tag{partitioner_1.id}"
node.meta["delegation_tag"] = delegation_tag
self.partition_tags[delegation_tag] = self.delegation_spec_1
# Tag all nodes in the first partiton to backend 2
node_to_backend_2 = ... # some logic to select the nodes from the graph
delegation_tag = f"backend2_tag{partitioner_2.id}"
node.meta["delegation_tag"] = delegation_tag
self.partition_tags[delegation_tag] = self.delegation_spec_2
return exported_program
6. 是否有简单的方法来编写 partitioner?
我们提供了一些辅助 partitioner here,以便轻松地从分解的运算符中查找节点。
7. 我们如何将节点链接回源代码? 我们提供了一个辅助函数
from executorch.exir.print_program import inspect_node
print(inspect_node(graph, node))
它将在图中突出显示节点,并指向源代码,示例输出如下
_param_constant1 error_msg: Here is the node in the graph module:
graph():
%arg0_1 : [num_users=1] = placeholder[target=arg0_1]
%_param_constant0 : [num_users=1] = get_attr[target=_param_constant0]
--> %_param_constant1 : [num_users=1] = get_attr[target=_param_constant1]
%aten_convolution_default : [num_users=2] = call_function[target=executorch.exir.dialects.edge._ops.aten.convolution.default](args = (%arg0_1, %_param_constant0, %_param_constant1, [1, 1], [0, 0], [1, 1], False, [0, 0], 1), kwargs = {})
%_param_constant2 : [num_users=1] = get_attr[target=_param_constant2]
%_param_constant3 : [num_users=1] = get_attr[target=_param_constant3]
%aten_convolution_default_1 : [num_users=1] = call_function[target=executorch.exir.dialects.edge._ops.aten.convolution.default](args = (%aten_convolution_default, %_param_constant2, %_param_constant3, [1, 1], [0, 0], [1, 1], False, [0, 0], 1), kwargs = {})
%aten_add_tensor : [num_users=1] = call_function[target=executorch.exir.dialects.edge._ops.aten.add.Tensor](args = (%aten_convolution_default, %aten_convolution_default_1), kwargs = {})
%_param_constant4 : [num_users=1] = get_attr[target=_param_constant4]
%_param_constant5 : [num_users=1] = get_attr[target=_param_constant5]
%aten_convolution_default_2 : [num_users=1] = call_function[target=executorch.exir.dialects.edge._ops.aten.convolution.default](args = (%aten_add_tensor, %_param_constant4, %_param_constant5, [1, 1], [0, 0], [1, 1], False, [0, 0], 1), kwargs = {})
%aten_gelu_default : [num_users=1] = call_function[target=executorch.exir.dialects.edge._ops.aten.gelu.default](args = (%aten_convolution_default_2,), kwargs = {})
return [aten_gelu_default]
This node _param_constant1 has metadata of:
The node stacktrace:
Traceback (most recent call last):
File "/tmp/ipykernel_1204253/3382880687.py", line 7, in forward
return self.test_model(x)
File "/mnt/xarfuse/uid-25337/7b86ad0c-seed-nspid4026532987_cgpid2707357-ns-4026532984/torch/nn/modules/module.py", line 1528, in _call_impl
return forward_call(*args, **kwargs)
File "/tmp/ipykernel_1204253/712280972.py", line 10, in forward
a = self.conv1(x)