内存规划¶

受众：对自定义 ExecuTorch 程序运行内存区域感兴趣的后端集成人员和嵌入式开发人员。

概述¶

内存规划是在将 ExportedProgram 转换为 ExecuTorch 程序之前执行的最后一步操作。在此过程中，ExecuTorch 会获取每个可变张量的尺寸和生命周期，并规划它们在固定大小的内存区域中的位置。

具体来说，与内存规划相关的三个步骤如下：

SpecPropPass 为图中的每个张量（输入、中间结果或输出）计算一个 TensorSpec。TensorSpec 中最重要的字段是张量形状的符号表达式，其中初始符号集来自输入张量的维度，中间张量形状的符号表达式通过张量运算进行传播。用户可以将维度标记为动态或静态，当维度为动态时，用户需要使用 ValueRange 对维度进行标注。
SymShapeEvalPass 使用其上限将符号表达式评估为具体的整数。有两种方法可以进行上限专门化：HintBasedSymShapeEval（即将弃用）是评估上限的旧方法。它不查看符号的 ValueRange，而是使用示例输入的形状来替换所有符号。我们称之为“基于提示”，因为示例输入的形状只是对运行时输入形状的提示，仅用于跟踪。ValueRangeBasedSymShapeEval 是推荐的上限内存规划方法。它会实际查看符号的 ValueRange，并对范围进行推断以获得实际的上限。
MemoryPlanningPass 在所有张量都获得具有具体整数形状的 TensorSpec 后执行实际的内存规划。

算法¶

ExecuTorch 提供了两种开箱即用的内存规划算法选项，但用户可以根据自己的使用情况定义自己的算法，如果提供的选项不合适或不足。

朴素算法简单地将所有张量线性地连接在一起，形成一个线性内存块，而不考虑内存重用。它作为总内存消耗的上限，并作为基线。
贪婪算法尝试根据最佳匹配标准重用已分配的内存。具体来说：当没有分配的内存的生命周期与我们尝试进行内存规划的当前张量不重叠时，我们分配一个与当前张量具有相同大小和生命周期的新的内存缓冲区。当存在一个或多个分配的内存缓冲区，其生命周期与当前张量重叠时，我们选择与当前张量大小最接近的缓冲区，以减少内存碎片。最后，我们将这些内存缓冲区线性地分配到内存中。

方法输入和输出¶

MemoryPlanningPass 提供了不为程序输入和输出进行内存规划的选项。如果 IO 没有被规划，那么用户需要在运行时提供数据缓冲区来支持这些值。例如

program = edge_program.to_executorch(
            exir.ExecutorchBackendConfig(
                memory_planning_pass=MemoryPlanningPass(
                    memory_planning_algo="greedy",
                    alloc_graph_input=False, # Inputs will not be memory planned, the data_ptr for input tensors after model load will be nullptr
                    alloc_graph_output=True, # Outputs will be memory planned, the data_ptr for input tensors after model load will be in the `planned_memory`.
                )
            )
        )

一种常见的设置是，模型的输出作为后续推理的输入提供。在这种情况下，通常最好不要为 IO 进行内存规划，而是将同一个缓冲区在运行时提供给输入和输出，以避免复制。

自定义内存计划¶

用户可以编写自定义内存计划，以利用多个内存位置（如 SRAM 和 DRAM），将特定节点的输出放置在特定位置，甚至更改规划算法本身。以下示例展示了如何重用提供的规划算法，但使用多个层次结构并将特定操作的输出放置在特定的内存区域。

class CustomPoolMemoryPlanningPass(MemoryPlanningPass):
    def run(self, graph_module: GraphModule, graph_signature: Optional[ExportGraphSignature]) -> PassResult:
        for subgm in graph_module.modules():
            if not isinstance(subgm, GraphModule):
                continue
            for node in subgm.graph.nodes:
                # mem_id = 1 placeholder and outputs of mul
                # mem_id = 2 for outputs of add
                # parent class will copy spec will to alloc nodes
                if node.op == "placeholder":
                    node.meta["spec"].mem_id = 1
                    continue

                if node.op != "call_function":
                    continue

                if node.target == torch.ops.aten.add.out:
                    node.meta["spec"].mem_id = 2
                elif node.target == torch.ops.aten.mul.out:
                    node.meta["spec"].mem_id = 1

        return super().run(graph_module, graph_signature)

然后，在降低到 ExecuTorch 时，您可以通过以下方式使用自定义计划

program = edge_program.to_executorch(
            exir.ExecutorchBackendConfig(
                memory_planning_pass=CustomPoolMemoryPlanningPass(
                    memory_planning_algo="greedy",
                )
            )
        )

尝试编写自定义内存规划算法的用户应该首先查看贪婪算法的实现。

内存规划¶

概述¶

算法¶

方法输入和输出¶

自定义内存计划¶

文档

教程

资源