跳转到主要内容
公告

开源遗产与 AI 的许可挑战

作者: 2025 年 5 月 22 日暂无评论

开源许可彻底改变了软件开发,创造了一个基于共享创新和协作的繁荣生态系统。像 MIT 和 Apache-2.0 这样的许可证为开发人员提供了一种标准、法律上健全的方式来共享代码,减少了摩擦并加速了采用。

今天,我们正站在开放 AI 模型的类似转折点。这些模型日益成为研究和行业的基础,但缺乏同等的许可标准。现有的开源软件许可证并非为 AI 模型设计,而大多数模型专用许可证要么过于复杂,要么限制过多,要么法律上模糊不清。

为了充分释放开放 AI 的潜力,我们需要一个专为机器学习现实而设计的许可证。这就是 OpenMDW 的用武之地。

为什么 AI 模型需要新许可证

AI 模型与传统软件根本不同。它们是

  • 多种类型组件的组合:包括代码、架构、训练数据、权重、文档和评估协议。
  • 受重叠知识产权制度的约束:例如版权、数据库权利和商业秘密,这些因司法管辖区而异。
  • 分发时没有一致的“开放”定义:导致许可环境碎片化。

这种复杂性导致了大量定制的、不兼容的许可证,这些许可证通常

  • 限制再分发、重用或修改。
  • 未能解决模型特有的法律细微之处。
  • 给开发人员和采用者都带来了不确定性。

结果呢?开放生态系统中的摩擦、法律模糊性以及协作和创新的重大障碍。

OpenMDW 的起源

OpenMDW,即开放模型、数据和权重许可证的缩写,源于实施模型开放性框架 (MOF) 的努力。MOF 是一个三层分类系统,它定义了模型“真正开放”的含义——不仅仅是可用性有限或有使用限制,而是其代码、架构、参数、训练数据和文档都开放许可。

为了使 MOF 实用化,模型开发人员需要一个简单、标准的许可证,他们可以将其放入任何存储库中,就像 Apache-2.0 或 MIT 在软件中使用一样。一些专为包括模型在内的多种内容类型而设计的东西,而不仅仅是代码。

OpenMDW 的不同之处

OpenMDW 是第一个真正宽松的许可证,从头开始为机器学习模型设计。以下是它的独特之处

覆盖整个模型堆栈

它旨在应用于模型发布的所有组件

  • 模型架构
  • 参数和检查点
  • 训练和推理代码
  • 预处理和评估数据
  • 文档(例如,模型卡、数据卡)

重要的是,OpenMDW **不要求**包含所有组件。它仅适用于所分发的内容,同时与可能管辖存储库某些部分的其他许多许可证兼容。

(OpenMDW 用户当然必须继续遵守适用于其存储库中任何其他现有材料的任何其他第三方许可证,例如提供许可证文本和通知、适用的源代码等。)

全面且有法律依据

OpenMDW 授予广泛的权限,包括在**著作权法、专利法、数据库法和商业秘密法**下的权限,涵盖与 AI 产物相关的广泛法律权利。

它还包括

  • 专利诉讼终止条款,以阻止模型材料用户提出专利主张
  • 归属要求,以维护来源和信任

与政策和开源原则兼容

  • 旨在完全符合欧盟 AI 法案对“免费和开源许可证”的提及
  • 支持开放源代码促进会 (OSI) 的 10 项原则,包括自由再分发、源代码可用性、派生作品以及不对个人或团体歧视

专为简单性而设计

  • 一个许可证,一个文件,一个位置:存储库根目录下的 LICENSE 文件
  • 没有复杂的许可矩阵:下游用户不会感到困惑
  • 易于集成到任何存储库:就像 MIT 或 Apache-2.0 一样。

理解 OpenMDW 许可证

定义和范围

OpenMDW 下的**模型材料**包括

  • 模型架构和训练参数;以及
  • 所有根据 OpenMDW 提供的其他相关材料,其中可以包括
    • 预处理、训练和推理代码
    • 数据集和评估脚本
    • 文档、元数据和工具

这一全面范围直接映射到模型开放性框架 (MOF),确保如果模型的所有关键元素包含在分发中,则它们都受到覆盖。

**模型材料不应被视为分发中必须包含的内容**。它仅指定分发中包含的内容受许可证约束,并排除分发中受其他许可证约束的任何内容。

权利授予

OpenMDW 授予“不受限制地处理模型材料”的广泛权利,例如包括

  • **使用、修改和分发**模型材料
  • 根据**著作权法、专利法、数据库法和商业秘密法**进行操作

这些权利**免费授予**,没有使用限制,消除了开发人员和企业之间的模糊性。

归属,而非 Copyleft

OpenMDW 仅施加**最低限度的义务**

  • 保留许可证文本
  • 保留原始版权和归属通知

没有 copyleft 或 share-alike 条件,这意味着派生模型和集成可以保持完全宽松。这允许**最大程度的重用和互操作性**。

专利保护

为了防止公共资源的滥用,OpenMDW 包含了一个**专利诉讼终止条款**:如果被许可方就模型材料发起攻击性专利诉讼,其许可证将被撤销。

这与开源软件中的最佳实践相符,并有助于维护一个协作生态系统。

输出不受限制

一项重大创新:使用 OpenMDW 下的模型生成的输出完全不受模型材料提供者施加的许可限制。

这消除了关于生成的文本、图像、代码或预测是否受模型提供者限制的困惑——这是现有许可证中常见的不确定点。

如何采用 OpenMDW

采用 OpenMDW 简单明了

  1. 将 OpenMDW-1.0 许可证文件添加到您的存储库:LICENSE
  2. 在 README 中**明确指出**您的发布是基于 OpenMDW-1.0
  3. 确保模型包的所有组件都已覆盖和披露,包括突出显示受其他许可证约束的任何组件

为什么现在很重要

AI 社区正达到一个转折点。开放模型——从 AI2 的 Molmo 到 Mistral,以及像 DeepSeek 的 R1 这样的开放推理模型到多模态代理——正在重塑开放的可能性。但它们的许可状态仍然难以界定,因为软件许可证可能无法清晰地映射到 AI 模型上。

一些使用限制性许可证的开放权重模型已逐渐变得更宽松;但由于缺乏可用的强大许可法律框架,模型生产者在设计自己的许可证时不得不倾向于谨慎。

在最近的帖子中,AI2 的Nathan Lambert 正确指出:“开源 AI 长期以来待办事项之一是更好的许可证”,OpenMDW 有助于满足这一需求。

正如 Apache-2.0 和 MIT 成为了开源软件的基础许可证一样,OpenMDW 有望成为**开放模型**的标准。其清晰性、范围和宽松性降低了开发人员的门槛,并为希望在开放基础上负责任地构建的公司和研究人员创造了确定性。

这不仅仅是法律清晰度的问题,更是为了实现一个**创新丰富且开源的 AI 生态系统**。

请访问openmdw.ai 获取更多详情,包括常见问题解答。