开源AI到底是什么意思?

众所周知,开源软件和专有软件之间的斗争。但是几十年来弥漫在软件界的紧张局势已经转移到蓬勃发展的人工智能领域,争议紧随其后。

《纽约时报》最近发表了对Meta首席执行官马克·扎克伯格的推崇之词,指出他如何通过他的“开源AI” embrace重新在硅谷受到欢迎。然而,问题在于,Meta的Llama品牌的大型语言模型并不真正是开源的。

或者它们是吗?

根据大多数估计,它们不是。但这凸显了“开源AI”观念只会在未来引发更多争论。这是开源倡议组织(OSI)正努力解决的事情,由执行董事斯蒂法诺·马富利(上图)领导,他通过一项全球努力跨度会议、研讨会、论坛、网络研讨会、报告等已经致力于此问题超过两年的工作。

AI不是软件代码

OSI已经是开源定义(OSD)的管理者超过四分之一世纪,阐明了“开源”这个术语如何可以或应该应用于软件。符合这一定义的许可证可以合法地被视为“开源”,尽管承认存在从非常宽松到不太宽松的许可证范围。

但是,从软件向AI转换遗留的许可和命名规范是有问题的。开源倡导者、风险投资公司OSS Capital的创始人约瑟夫·贾克斯甚至说“根本不存在开源AI”,指出“开源专门用于软件源代码。”

相比之下,“神经网络权重”(NNWs)—— 人工智能领域用来描述网络在训练过程中学习的参数或系数的术语——在任何意义上都不可与软件相提并论。

“神经网络权重不是软件源代码;它们无法被人类阅读,也无法被调试,”贾克斯指出。“而且,开源的基本权利也以任何一种一致的方式转移到NNWs。”

这促使贾克斯和OSS Capital的同事希瑟·米克想出了他们自己的定义,围绕“开放权重”的概念。

因此,在我们甚至获得有意义的“开源AI”定义之前,我们就已经看到了试图实现这一目标的内在紧张关系。如果我们无法采取一致的看法来定义,“我们正在定义的”东西是否存在?”

就其价值而言,马富利表示同意。

“这一点是正确的,”他告诉TechCrunch。“我们最初讨论的争论之一是是否根本称之为开源AI,但每个人都已经在使用这个术语。”

这反映了更广泛的人工智能领域存在的一些挑战,在那里有关我们今天称为“AI”的东西到底是真正的AI还是只是强大的系统被教导识别庞大数据中的模式。但唱衰者大多都已经接受了“AI”这个名词是在这里,而且没有争执意义。

Meta分析

成立于1998年的OSI是一家非营利公益公司,致力于围绕倡导、教育和其核心存在之理由:开源定义等众多开源相关活动。如今,该组织依赖赞助资金,拥有亚马逊、谷歌、微软、思科、英特尔、销售强制和Meta等尊贵成员。

关于所谓“开源AI”概念,Meta目前与OSI的合作尤其引人注目。尽管Meta把自己的AI帽子挂在开源钉上,但该公司对其Llama模型的使用设置了显著限制:当然,它们可以免费用于研究和商业用途,但有超过7亿月度活跃用户的应用开发人员必须要求Meta授予特别许可证,这完全由Meta自行决定。

简单来说,如果Meta的大科技兄弟们想加入进来,他们可以吹口哨。

Meta对其LLM的语言涣是有些随意的。虽然公司确实称其Llama 2型模型为开源,但到了4月份Llama 3型推出,它在术语上有所退缩,而是使用“公开可用”和“可公开访问”的短语。但在一些地方,它仍称该模型为“开源”。

“其他所有参与对话的人都完全同意,Llama本身不能被认为是开源的,”马富利说。“我与在Meta工作的人交谈过,他们知道这有点扯。”

此外,有人可能会认为这里存在利益冲突:一家表现出希望倚靠开源品牌的公司也向“定义之管理者”提供资金?

这正是OSI正试图使其筹款多样化的原因之一,最近获得了斯隆基金会的拨款,这有助于资助其多利益相关者全球推动开源AI定义的努力。TechCrunch可以透露,这项资助金额约为25万美元,马富利对此表示希望这可以改变其对公司赞助依赖的视角。

“这也是斯隆的拨款更明显的事情之一:我们随时准备告别Meta的钱,”马富利说。“即使在这项斯隆拨款之前,我们就已经可以做到这一点,因为我知道我们将得到其他人的捐赠。Meta非常了解这一点。他们不干预其中任何一件事[过程],微软、GitHub、亚马逊或谷歌也不会;他们绝对知道他们不能干预,因为组织的结构不允许那样。”

开源AI的工作定义

目前的开源AI定义草案版本为0.0.8,包括三个核心部分:引言,阐述文件的范围;开源AI定义本身;以及一个检查清单,列出了符合开源标准的AI系统所需的组件。

根据目前的草案,开源AI系统应授予对系统进行任何目的使用的自由,无需寻求许可;允许他人研究系统的工作方式并检查其组件;修改并分享系统以任何目的。

但最大的挑战之一围绕着数据——也就是说,如果公司没有使训练数据集可供他人查阅,那么AI系统可以被分类为“开源”吗?马富利表示,更重要的是要知道数据来自何处,开发人员如何标记、去重和筛选数据。此外,还要获得用于从各个源头组装数据集的代码。

“了解这些信息比仅仅获得纯数据集更加好,”马富利说。

虽然获得完整数据集是不错的(OSI将其视为“可选”组件),但马富利表示,在许多情况下这并不可能或实际可行。这可能是因为数据集中包含了机密或受版权保护的信息,开发人员没有权限重新分发。此外,有训练机器学习模型的技术,通过这些技术,数据本身实际上并未与系统共享,使用异步学习、差分隐私和同态加密等技术。

这正好突出了“开源软件”和“开源AI”之间的根本区别:意图可能是相似的,但它们并不是一一对应可比较的,这种差异正是OSI试图在其定义中捕捉的。

在软件中,源代码与二进制代码是同一个工件的两个视图:它们反映了不同形式的同一个程序。但训练数据集和随后训练出的模型是不同的东西:您可以使用相同的数据集,但不一定能够一致地重新创建相同的模型。

“在训练过程中发生了各种统计和随机逻辑,这意味着它不能像软件那样使其可复制,”马富利补充道。

因此,一个开源AI系统应该易于复制,并具有清晰的说明。这就是开源AI定义的检查清单方面发挥作用的地方,该清单基于最近发表的一篇学术论文“模型开放框架:促进人工智能中可重现性、透明性和可用性的完整性和开放性”。

该论文提出了模型开放框架(MOF),一个分类系统,根据机器学习模型的“完整性和开放性”对其进行评级。MOF要求AI模型开发的特定组件“包括并在适当的开放许可证下发布”,包括训练方法和模型参数的详细信息。

稳定状态

OSI称该定义的正式发布为“稳定版本”,就像一家公司将对应用程序进行了广泛测试和调试后在主要时间之前所做的一样。OSI故意没有称其为“最终版本”,因为其中的某些部分可能会发生变化。

“我们实际上无法指望这个定义像开源定义那样持续26年,”马富利说。“我不指望定义的顶部部分,比如‘什么是AI系统?’会发生太大变化。但是我们在清单中提到的部分,这些组件列表是否取决于技术?明天,谁知道技术会是什么样子。”

稳定的开源AI定义预计将在10月底的All Things Open会议上被董事会批准,而OSI将在介者的几个月内开始一项跨越五大洲的全球巡回演出,寻求更多“多样化的输入”关于“开源AI”将如何被定义。但任何最终更改很可能只是“小修改”。

“这是最后的冲刺,”马富利说。“我们已经达到了定义的功能完整版本;我们拥有所有所需的元素。现在我们有了一个检查清单,因此我们正在检查其中是否有任何意外;是否有应包括或排除的系统。”