• 文档 >
  • ExecuTorch 运行时概述
快捷方式

ExecuTorch 运行时概述

本文档讨论了 ExecuTorch 运行时的设计,该运行时在智能手机、可穿戴设备和嵌入式设备等边缘设备上执行 ExecuTorch 程序文件。主执行 API 的代码位于 executorch/runtime/executor/ 下。

在阅读本文档之前,我们建议您阅读 ExecuTorch 的工作原理

在最高层面上,ExecuTorch 运行时负责

  • 加载由模型降低过程的 to_executorch() 步骤生成的二进制 .pte 程序文件。

  • 执行实现降低模型的指令序列。

请注意,截至 2023 年末,ExecuTorch 运行时仅支持模型推理,尚不支持训练。

此图显示了导出和执行 ExecuTorch 程序的高层流程和涉及的组件

High-level diagram of the ExecuTorchRuntime

运行时还负责

  • 管理加载和执行期间使用的内存,可能跨多个内存库(如 SRAM 和 DRAM)。

  • 将符号运算符名称(如 "aten::add.out")映射到具体的 C++ 函数或 内核,这些函数或内核实现这些运算符的语义。

  • 将模型的预定部分分派到 后端委托 以进行加速。

  • 可选地收集加载和执行期间的 性能分析数据

设计目标

ExecuTorch 运行时旨在在各种边缘设备上运行,从现代智能手机 CPU 到资源受限的微控制器和 DSP。它一流地支持将执行 委托 给一个或多个后端,以利用特定于架构的优化和现代异构架构。它足够小巧且可移植,可以直接在裸机嵌入式环境中运行,无需操作系统、动态内存或线程。

低执行开销

内存

  • 核心运行时库在不构建内核或后端的情况下小于 50kB。

  • 常量张量直接指向 .pte 文件数据,避免复制该数据。这些数据块的对齐方式可以在 .pte 创建时进行调整。

  • 后端委托可以选择在模型初始化后卸载其预编译数据,从而减少峰值内存使用量。

  • 可变张量内存布局是提前计划好的,并打包到一小部分用户分配的缓冲区中,从而提供对内存位置的细粒度控制。这在具有异构内存层次结构的系统上尤其有用,允许放置到(例如)SRAM 或 DRAM 中,靠近将操作数据的核心。

CPU

  • 模型执行是一个在指令数组上的简单循环,其中大多数是指向内核和后端委托的函数指针。这使执行开销保持在很小,大约在每次操作微秒到纳秒的量级。

  • 操作的实现(如“add”或“conv3d”)可以针对特定目标系统进行完全自定义,而无需修改原始模型或生成的 .pte 文件。

熟悉的 PyTorch 语义

ExecuTorch 是 PyTorch 堆栈的一流组件,并在可能的情况下重用 API 和语义。

  • ExecuTorch 使用的 C++ 类型与核心 PyTorch 的 c10::at:: 库中的相应类型源兼容,并且 ExecuTorch 提供了 aten_bridge 以在两者之间进行转换。 这对于已经使用 PyTorch C++ 类型的项目可能很有帮助。

  • 运算符(如 aten::addaten::sigmoid)的语义在 ExecuTorch 和核心 PyTorch 之间是相同的。 ExecuTorch 提供了一个测试框架来确保这一点,并帮助测试这些运算符的未来实现。

可移植的代码和架构

ExecuTorch 运行时的实现考虑了可移植性,以便用户可以为各种目标系统构建它。

C++ 语言注意事项

  • 代码与 C++17 兼容,以与较旧的工具链一起使用。

  • 运行时不使用异常或 RTTI,尽管它并不反对它们。

  • 该代码与 GCC 和 Clang 兼容,并且也已使用多个专有的嵌入式工具链构建。

  • 该 repo 提供了 CMake 构建系统,以使集成更容易。

操作系统注意事项

运行时不进行直接的系统调用。对内存、文件、日志记录和时钟的所有访问都通过 运行时平台抽象层 (PAL) 和注入的接口(如 DataLoaderMemoryAllocator)进行抽象。请参阅 运行时 API 参考 以了解更多信息。

应用程序可以通过 MemoryManagerMemoryAllocatorHierarchicalAllocatorDataLoader 类控制所有内存分配。核心运行时不直接调用 malloc()new,也不调用诸如 std::vector 之类的在后台分配的类型。这使得可以

  • 在没有堆的环境中运行,但如果需要,仍然可以使用堆。

  • 避免在模型加载和执行期间在堆上进行同步。

  • 控制要用于不同类型数据的内存区域。例如,一组可变张量可以驻留在 SRAM 中,而另一组可以驻留在 DRAM 中。

  • 轻松监控运行时使用的内存量。

但是,请注意,特定的内核或后端实现可能会使用任意的运行时或操作系统功能。用户应仔细检查他们使用的内核和后端库的文档。

线程注意事项

核心运行时不进行线程处理或锁定,也不使用线程局部变量。但是,它可以很好地与更高级别的同步配合使用。

  • 每个 Program 实例都是不可变的,因此是完全线程安全的。多个线程可以并发访问单个 Program 实例。

  • 每个 Method 实例都是可变的但自包含的,因此是有条件线程安全的。多个线程可以并发访问和执行独立的 Method 实例,但对单个实例的访问和执行必须串行化。

但是,请注意

  • Program::load_method() 期间可能会读取两个全局表:内核注册表和后端注册表。

    • 实际上,这些表仅在进程/系统加载时修改,并在加载第一个 Program 之前有效地冻结。但是,某些应用程序可能需要注意这些表,特别是如果它们在进程/系统加载时间后手动修改它们。

  • 特定的内核或后端实现可能具有其自身的线程限制。用户应仔细检查他们使用的内核和后端库的文档。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取面向初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并获得您的问题解答

查看资源