李开复遭受冤枉,中国开源遭受不当指责

出品 | 虎嗅科技组

作者 | 王一鹏

头图 | 视觉中国

就像过往所有的开源“套壳”事件一样,漩涡中心的主人公们,往往在开源社区和舆论的声讨下成为众矢之的,又在发布回应或道歉信后,快速被遗忘,不论结果与对错。

李开复和他的零一万物就是如此。11月6日,零一万物首次公布Yi-34B大模型,自豪地宣布Yi-34B“勇夺全球开源评测‘双料冠军’”。然而仅过了不到一周,在大模型开源社区的主阵地HuggingFace,就有开发者指出,Yi-34B完全使用了Meta开源的LLaMA架构,只修改了两个张量名,且在发布中,全程未提及LLaMA的存在。

由于李开复本人的“明星效应”,事件快速发酵,引爆了舆论。11月15日,零一万物发布回应,道歉并承诺把张量名字改回去,同时复盘了零一万物在大模型训练和代码层面所做的工作。

其实李开复是有点委屈的,因为零一万物似乎没做错什么。

一位律师向虎嗅表示,他和来自英美的律师团队,都就此事有过交流。各位律师从各自法域的视角出发进行分析,认为零一万物并未违反LLaMA的开源协议。

甚至在国外开源社区,也有不少专家为零一万物鸣不平。事件的源头人物,在HuggingFace社区披露此事的EricHartford在社区不断强调,他只是建议零一万物将修改的张量名改回去,并不带有其他指责,使用LLaMA架构没什么问题,模型训练才是一切。

X(Twitter)上也有人回应对零一万物抄袭的指责:荒唐,现在许多大模型都是基于LLaMA训练的。况且,事件发生一个月的时间里,Meta或LLaMA社区,自始至终未以官方身份与零一万物,就所谓的“套壳”问题进行交涉,某种程度上也代表了官方的态度。

截止到12月8日,Yi-34B在HuggingFace上已收获11万次下载,显然非常受欢迎。

图片内容来自 Hugging Face

但这些事实,与主流舆论声音无关。在与国内多位媒体人、开发者交流后,我们发现,几乎无人“站队”零一万物。一股萦绕不去的失望、不满,飘荡在零一万物及中国开源的上空。

一场社区争论,成了捅向零一万物的“刀”

JoséphusCheung是在零一万物“套壳”事件中,受到关注较多的一名开发者。在HuggingFace的社区,他和前文提到的EricHartford爆发了一场带着火药味的争论。

EricHartford称零一万物修改张量名就好,其他的没毛病。而JoséphusCheung则认为零一万物此举违反了LLaMA的开源协议,是个大问题。

双方的激辩因为Transformer核心贡献者、HuggingFace工程师ArthurZucker及其他开发者的介入而终结,大家回复JoséphusCheung道,LLaMA的开源协议主要限制了模型权重,而不是模型架构,所以零一万物的Yi-34B并未违反开源协议。

有趣的是,这场公开的争论传回国内时就变了味——大量的媒体、UGC内容单方面引用了JoséphusCheung的言论,称零一万物被开发者警告存在合规风险,而对反对派的声音及最终结论避而不谈。恐怕JoséphusCheung自己也不知道,他的发言已经成为一部分人声讨此事的间接证据。

造成此种问题的原因之一,是大模型技术本身的特殊性。有专家与虎嗅聊到,大模型有三大件:算法、数据和权重。

其中,算法以模型架构为载体呈现,也是零一万物饱受非议的焦点;数据则是大家讨论AIGC通常会聊到的数据集,相当于给AI提供的学习教材;权重是神经网络的基本概念,代表了两个处理单元之间的连接强度。通俗地来理解,“权重”就像一个员工给另一个员工发消息——有的是普通消息,有的是特别提醒,有的是“Ding”一下。而对于接收消息的员工而言,消息权重越高,影响越大。

这与过往的软件产品截然不同。曾几何时,代码等于一切,对应着大模型概念里的“模型架构”。对于大模型来说,架构只是“三大件”的其中之一。在Mamba架构面世未久,Transformer架构一统江湖的当下,甚至架构的重要性还不如数据和权重。而数据和权重属于工程性问题,对应着模型的训练。有知情人透露,OpenAI训练GPT-4时,可能有20个团队同时参与,是相当庞大的工程。

所以,Yi-34B使用LLaMA架构,远远谈不上“套壳”,这是大模型技术本身的特殊性决定的。

有大模型技术专家,对虎嗅就大模型的早期研发问题也做了进一步补充:“LLaMA,GPT都是基础大模型,基于Transformer架构训练,使用了不同的方法,有encode-decode结构的,也有像GPT类decodeonly的。所以从零开始的话,就是要基于像transformer这样的架构重新开发,并自己训练,各大厂商自研大模型都是如此的。还有一类就是基于现有的基础大模型,有ContinuePretrain,finetune等方法,进行再训练或者微调,基于LLaMA这样的开源架构,有很多团队在上面做工作。”

也就是说,基于LLaMA训练大模型,是国内大模型创业的主流形态,至于从零开始自研,有专家表示:“国内没有几家创业公司能做到这事儿,成本很高,算法要求很高,数据集要求很高,工作量很大,也很容易出错。”

另有行业内人士对虎嗅说道:“国内真正从零到一研发大模型的可能也就三家——百度、阿里、智谱。“

当然,上述所有真实情况,并未让零一万物在国内舆论层面得到同情或豁免,甚至也没有使其在技术社区获得更多支持。

一方面,零一万物发布大模型,却对LLaMA采取避而不谈的宣传策略——LLaMA的唯一一次出现,是在Yi-34B的竞品性能对比里,且数据指标被超越——难免让人觉得零一万物在道义上对LLaMA有所亏欠,在宣传上玩了一个小小的“心机”。

图片内容来自零一万物官方公众号

另一方面,国内的开源历史,实在谈不上阳春白雪,甚至可以说是饱受争议。一桩桩“套壳”公案,屡见不鲜,公众的忍耐度,就像充气过度的气球,处在爆发的边缘。今天对零一万物的所有质疑,其实都是在质疑那个外表光鲜的中国开源。

中国开源,积怨已久

就在今年8月24日,一款宣称是完全国产、自主研发的IDE开发工具上架了,结果被网友扒出是“换皮微软VSCode”,引发群嘲,两天后出品方致歉并将软件下架。

2021年,StartRocks和ApacheDoris发生纠纷。ApacheDoris本是由百度捐献给Apache基金会的数据库项目,StartRocks则是ApacheDoris的项目分支,原名叫DorisDB,鼎石纵横团队围绕DorisDB成立商业公司,在品牌方面构成侵权。据思否报道,ApacheDoris的项目导师、孵化器PMC都曾联系StartRocks进行劝阻,但被无视。一系列纠纷被曝光后,StartRocks引发众怒,不得已私下与ApacheDoris达成和解,息事宁人。

2020年,中科院计算所下属团队号称完全自主设计、开发和实现的编程语言“木兰”,被人发现套壳Python。相关负责人道歉,说“木兰”编程语言原本要用于中小学教育,是他自己夸大宣传了。

3C领域更是开源违规的重灾区,小米、一加、文石(电子书厂商),都曾成为社区的集中吐槽对象。中国开源的“违规史”,简直可以写成一本年鉴。

而开源本身带有国际属性,连带使中国优秀的开源人,在国际上遭受不同程度的非议和歧视。

一位国外网友曾在Reddit上抱怨道:"这就是我不喜欢中国软件的原因,他们几乎总是不尊重许可证,并尽一切可能逃脱惩罚(Thisiswhyidon'tlikechinesesoftware.Almostawaystheydon'trespectlicensesanddowhatevertheycangetawaywith)"。

在很长一段时间里,中国的开源布道者们,都是带着少数优秀项目,与行业惯性和国际歧视“拔河”,时间一久,就会“苦中作乐”——某知名开源基金会布道师对虎嗅表示:“说心里话,现在挺好了,已经有很多进步了。如果是十年前,有人套壳开源软件,甚至不会引发任何讨论和报道,谁关心呢?现在至少大家会讨论这事儿。”

2021年,ApacheSkywalking创始人吴晟,当选Apache基金会第一位华人董事,成为圈子里普天同庆的喜事。

有利可图,无需付出代价,通常是违规行为的诱因。使用免费代码的利益,显而易见。而在开源问题上弄虚作假,确实也不会对国内的企业产生太多实质性影响。

一般套壳的惩罚也不过是道歉并将软件下架,但因为这类软件都是套壳抄袭的,所以也不存在太多研发上的”沉没成本”。

直到2021年,国内才出现第一起与开源协议(GPL)有关的侵权案件,被告作为侵权方最终被判罚50万元。而与GPL协议相关的第一起案件宣判,已经是2005年发生在德国的事了。从2005年到2021年,中国开源在法律层面存在16年的实践空白。

在实施力度上,中外也有所差别。在2005年的案子里,慕尼黑法院对侵权方Fortinet发出了临时禁令,禁止Fortinet销售产品,直到符合许可证条款。同时,Fortinet被迫根据GPL协议将他们的FortiOS(一款服务软件安全领域的操作系统)免费提供给外界。

开源相关侵权案的审理,更多是在参考传统的著作权纠纷案件。与刑事案件不一样,著作权纠纷案件,需要由被侵权方主动发起诉讼。在这起Fortinet侵权案中,发起诉讼的是一个非营利性组织gpl-violations.org,该组织发起于2004年,致力于对侵权者施加压力,对侵权行为发起行动。国外,这样的组织不止一个,在国内则难得一见。

那么,资本层面会对开源违规行为做出反应吗?虎嗅也试图就此类问题,与投资人进行沟通,但大家则对此讳莫如深,不愿多谈。目前还未有明确证据显示,国内企业发生开源违规,会导致融资困难。

不过,一名在开源领域创业的CEO对虎嗅说道:“如果是在美国,这样的公司(发生侵权、套壳行为的公司)后续就不会拿到融资了。”

真正的痼疾:开源等于免费

实际上,即便不考虑弄虚作假的情况,当下中国的大部分开源项目,也与理想模式相去甚远。大众层面对于开源所有的期待,其实可以用一句话来总结:打破技术垄断,振兴中国技术。但中国开源当下只是个瘦骨嶙峋的孩子,不足以背负这种宏图伟愿。

开源的概念很抽象,公众对其更直观的印象来自一些改变世界的伟大软件,比如:Linux、MySQL、Android,以及如今的Transformer。其中,Linux内核遍布全球服务器、IoT设备,MySQL撑起全球数据库的半壁江山,Android撑起手机操作系统半壁江山,Transformer几乎是所有大模型的架构基础。

将“印象”等化为“期望“,让现实变得有些难以接受。事实上,中国开源的发展目标,在产业侧是妥协过的,创业的CEO往往不会太感性,只求先在商业层面获得成功即可。

但”曲线救国“的策略有利有弊,在中国出现一家成功IPO的开源企业之前,妥协的恶果已经开始显现。

开源有一条重要的原则叫做“UpstreamFirst“,上游优先原则,意味着企业在免费试用开源代码的同时,也要反馈意见和代码到开源社区,确保社区维护的主干版本可以优先迭代,推动软件不断走向完善。这是开源能够创造价值、互惠互利的“飞轮”。

但一部分国内企业选择竭泽而渔。在他们看来,开源没有这么复杂——开源等于免费。向社区贡献代码?要么招聘几个社区开发者,要么以后再说吧。

这或许也解释了,为什么在AIGC快速发展的2023年,中国企业在大模型上的爆发,仅限于数量——抄来的终究是别人的,不参与开源贡献,通常也不会具备真正的技术优势。

大模型在架构上的源头是Transformer,据OSSInsight数据统计,在Transformer社区中,提Issue(答疑交流、反馈缺陷)的Top10榜单,只有两家中国单位,一个是北京大学,一个是清华大学,没有一家中国企业。前五分别是:微软、HuggingFace、谷歌、卡内基梅隆大学、英特尔。

在Pull(贡献代码)Top10榜单里,只有腾讯一家公司入榜,排在第十,前五分别为:微软、HuggingFace、谷歌、英伟达、Facebook(Meta)。

Transformer 各企业 Pull 占比,内容来自 OSS Insight 网站

细看两个榜单的前五名公司,微软和谷歌皆是当今AIGC领军人物,联手奠定了当今的AI格局。Meta发布了开源LLaMA大模型,成为最被中国企业青睐的“借鉴对象”。HuggingFace仅用一年时间就实现了估值翻倍,如今估值超过40亿美金,NBA球星杜兰特也参与了其天使轮融资。

卡内基梅隆大学,前段时间刚与斯坦福大学联手发布了Mamba架构,号称要颠覆Transformer。它实现了公众对于开源的期待——学习、参与,最终完成超越。

再看看LLaMA,Issue(答疑交流、反馈缺陷)Top10榜单,没有一家中国公司入选,只有哈尔滨工业大学排在第五;Pull(贡献代码)Top10榜单,有三家中国公司:星鲸科技、腾讯、水木分子生物科技,分别排在第四、第八、第十位。

近五年,以BAT、字节为代表的头部企业,也注意到这个问题,纷纷成立开源办公室,希望能塑造企业内的开源文化。但其中一部分项目,又被行业戏称为“KPI式开源”——指员工为了完成KPI而去更新开源项目,该项目的寿命因KPI完成或岗位变动而终结。甚至有开源社区专家表示,根本不相信所谓的“大厂开源”,认为其天然在社区贡献者多样性这个问题上存在劣势。

目前公认比较健康的开源项目,大部分集中在云原生、大数据领域,分别捐赠给了Linux基金会和Apache基金会。至于剩余的百余家国产大模型企业,99%不在这些榜单里。近期关于AIGC的一系列重磅进展,也忠实地反映了这个结果。

这个结局,企业能接受,投资人能接受,某种意义上,部分开源人也能接受。剩余不能接受的人,满怀愤怒。这让所有的明星开源创业团队,都像坐在“火药桶”上创业,一个火星,就能让人灰飞烟灭。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com