开源遗产与人工智能的许可挑战——PyTorch

开源许可彻底改变了软件开发，创建了一个建立在共享创新和协作基础上的繁荣生态系统。MIT 和 Apache-2.0 等许可证为开发者提供了一种标准、法律上健全的方式来共享代码，减少了摩擦并加速了采用。

今天，我们正站在开放人工智能模型类似的转折点。这些模型日益成为研究和行业的基础，却缺乏同等的许可标准。现有的开源软件许可证并非为人工智能模型设计，而大多数特定于模型的许可证要么过于复杂，要么限制过多，要么法律上模糊不清。

为了充分释放开放人工智能的潜力，我们需要一个专门为机器学习的现实而设计的许可证。这就是 OpenMDW 的用武之地。

为什么人工智能模型需要新的许可证

人工智能模型与传统软件根本不同。它们是：

多类型组件的复合体：包括代码、架构、训练数据、权重、文档和评估协议。
受制于重叠的知识产权制度：例如版权、数据库权利和商业秘密，这些因司法管辖区而异。
分发时没有一致的“开放”定义：导致许可环境碎片化。

这种复杂性导致了大量定制的、不兼容的许可证，这些许可证通常：

限制再分发、重用或修改。
未能解决模型独有的法律细微差别。
给开发者和使用者都带来了不确定性。

结果是什么？开放生态系统中的摩擦、法律模糊性以及协作和创新的巨大障碍。

OpenMDW 的起源

OpenMDW，即开放模型、数据和权重许可证（Open Model, Data and Weights License）的缩写，源于实施模型开放性框架 (MOF)的努力。MOF 是一个三层分类系统，它定义了模型真正“开放”的含义——不仅仅是有限制或使用限制的可用，而是在其代码、架构、参数、训练数据和文档方面都开放许可。

为了使 MOF 实用化，模型开发者需要一个简单、标准的许可证，他们可以将其放入任何存储库中，就像 Apache-2.0 或 MIT 用于软件一样。它应该专门为多种类型的内容（包括模型，而不仅仅是代码）而设计。

OpenMDW 的与众不同之处

OpenMDW 是第一个从头开始为机器学习模型设计的真正宽松的许可证。以下是它与众不同之处：

涵盖整个模型堆栈

它旨在应用于模型发布的所有组件：

模型架构
参数和检查点
训练和推理代码
预处理和评估数据
文档（例如模型卡、数据卡）

重要的是，OpenMDW 不要求包含所有组件。它仅适用于所分发的内容，同时与可能管辖存储库某些部分的其他许多许可证兼容。

（OpenMDW 用户当然必须继续遵守适用于其存储库中任何其他现有材料的任何其他第三方许可证，例如通过提供许可证文本和通知、适用时的源代码等。）

全面且有法律依据

OpenMDW 授予广泛的权限，包括在版权、专利、数据库和商业秘密法下，涵盖了与人工智能制品相关的广泛法律权利。

它还包括：

专利诉讼终止条款 以阻止模型材料用户提出专利主张
归属要求 以保持出处和信任

与政策和开源原则兼容

旨在与欧盟人工智能法案中提及的“自由和开源许可证”完全一致
支持开源倡议 (OSI) 的 10 项原则，包括自由再分发、源代码可用性、衍生作品以及不歧视个人或团体

设计简单

一个许可证，一个文件，一个位置：存储库根目录下的 LICENSE 文件
没有复杂的许可矩阵：下游用户不会感到困惑
易于集成到任何存储库中：就像 MIT 或 Apache-2.0 一样。

理解 OpenMDW 许可证

定义和范围

OpenMDW 下的模型材料包括：

模型架构和训练参数；以及
根据 OpenMDW 提供的所有其他相关材料，可以包括：
- 预处理、训练和推理代码
- 数据集和评估脚本
- 文档、元数据和工具

这个全面的范围直接映射到模型开放性框架 (MOF)，确保如果模型的所有关键元素都包含在分发中，它们都将受到涵盖。

模型材料并非旨在强制要求必须包含在分发中。它只规定分发中包含的内容受许可证涵盖，并排除分发中受其他许可证涵盖的任何内容。

权利授予

OpenMDW 授予广泛的权利，允许“不受限制地处理模型材料”，例如：

使用、修改和分发 模型材料
在 版权、专利、数据库和商业秘密法 下操作

这些权利是免费授予的，没有使用范围限制，消除了开发者和企业之间的模糊性。

归属，而非 Copyleft

OpenMDW 仅施加最低限度的义务：

保留许可证文本
保留原始版权和归属声明

没有 copyleft 或 share-alike 条件，这意味着衍生模型和集成可以保持完全宽松。这允许最大程度的重用和互操作性。

专利保护

为了防止滥用公共资源，OpenMDW 包含专利诉讼终止条款：如果被许可方就模型材料发起进攻性专利诉讼，其许可证将被撤销。

这与开源软件中的最佳实践相呼应，并有助于维护协作生态系统。

输出不受限制

一项重大创新：使用 OpenMDW 下的模型生成的输出完全不受模型材料提供者施加的许可限制。

这消除了关于生成的文本、图像、代码或预测是否受到模型提供者限制的困惑——这是现有许可证中常见的不确定点。

如何采用 OpenMDW

采用 OpenMDW 简单明了：

将 OpenMDW-1.0 许可证文件添加到您的存储库中： LICENSE
在 README 中 清楚地表明 您的发布在 OpenMDW-1.0 下
确保模型包的所有组件都已涵盖并披露，包括突出显示任何受其他许可证约束的组件

为什么现在很重要

人工智能社区正在达到一个转折点。开放模型——从 AI2 的 Molmo 到 Mistral，以及像 DeepSeek 的 R1 这样的开放推理模型和多模态代理——正在重塑开放的可能性。但它们的许可状态仍然难以描述，因为软件许可证可能无法清晰地映射到人工智能模型上。

一些使用限制性许可证的开放权重模型已逐渐变得更加宽松；但由于缺乏可用的强大法律框架用于许可，模型生产者被迫在设计自己的许可证时倾向于谨慎。

在他最近的帖子中， AI2 的 Nathan Lambert 正确地指出：“开源人工智能长期以来的待办事项之一是更好的许可证”，OpenMDW 有助于满足这一需求。

正如 Apache-2.0 和 MIT 成为开源软件的基础许可证一样， OpenMDW 有望成为开放模型的标准。其清晰性、范围和宽松性降低了开发者的障碍，并为希望在开放基础上负责任地构建的公司和研究人员创造了确定性。

这不仅仅是关于法律清晰度，更是关于实现一个创新丰富和开源的人工智能生态系统。

访问 openmdw.ai 获取更多详细信息，包括常见问题解答。

开源遗产与 AI 的许可挑战