对话 | 商汤联创陈宇恒:大模型不会造成行业垄断,未来将做到万亿参数

莫离莫弃
阅读

对话 | 商汤联创陈宇恒:大模型不会造成行业垄断,未来将做到万亿参数

原标题:对话 | 商汤联创陈宇恒:大模型不会造成行业垄断,未来将做到万亿参数

商汤科技联合创始人、大装置事业群副总裁陈宇恒

出品 | 搜狐科技

作者 | 梁昌均

编辑 | 杨锦

“商汤AI大装置总算力可以并行训练20个以上的ChatGPT类大模型,未来我们会把大模型往更大的规模去做,从千亿级做到万亿级的模型参数。”商汤科技联合创始人、大装置事业群副总裁陈宇恒对搜狐科技等媒体表示。

近日,这家以计算机视觉起步的AI公司,正式宣布了其在大模型上的布局和目标,计划通过“日日新SenseNova”大模型体系+底层基础设施SenseCore AI大装置,向通用人工智能(AGI)发起冲锋。

该大模型体系包括了商汤多个自研的AI大模型,包括320亿参数的视觉大模型,1800亿参数的语言大模型,30亿参数的多模态大模型,以及10亿参数的人工智能生成内容(AIGC)大模型。

陈宇恒表示,选择发布多个大模型是更为平滑的方式,从而更好实现大模型和用户反馈之间的飞轮效应的闭环。“这可以把模型越做越大、越做越有用。”

这意味着,一方面商汤将继续做更大规模的模型;另一方面,将推动算力基础设施平台继续扩建。目前,商汤AI大装置在超过27000张的GPU卡加持下能提供5.0 exaFLOPS(每秒5百亿亿次)的总算力,可以并行地去训练20个以上ChatGPT类的大模型。

陈宇恒透露,商汤将以上海临港AIDC为中心,在国内外建设人工智能算力中心,目前正在广州、重庆等地建设分中心。同时,在已对外提供7000张GPU卡的算力基础上,今年商汤将新增3000到4000张卡,预计明年达到万卡级。

在陈宇恒看来,商汤打造的AI大装置+大模型新的商业形态,实现了从用户需求到产品落地的闭环,大幅降低AI应用和生产的成本,从而跨过商业的红线或工业的红线,最后可以大规模地商用,使得原来零散的小作坊式变成了集中式以及可以支持大规模应用生产的范式。

“这是商业模式上很大的转变,也满足了变现的需求,技术和商业起到了很好的平衡。”陈宇恒强调,AI大模型发展必须技术和商业齐头并进。

AI大模型需要长期的高投入,可能只有少数巨头能够玩得起,这也令业内担忧未来是否会出现垄断局面。但陈宇恒认为,AI大模型不会造成行业垄断,反而这是推进整个人工智能行业生态蓬勃发展非常重要的组成部分。

谈及ChatGPT引发的AI风口,陈宇恒表示,这类C端的现象级产品,最大贡献是让更多人知道了AI大模型,并在使用场景上做了很好的演示,认可了它的发展潜力。“这也证明了商汤在大模型和大装置上长期投入的正确性。”陈宇恒说。

以下为对话实录(经编辑整理)

媒体:商汤为什么要发布多个不同类型的大模型?不同的参数量是基于什么考虑?

陈宇恒:选择多个大模型可以把我们之前积累的各种能力,以视觉为核心,结合语言及各种模态的数据,去形成多行业应用的方案。未来我们会把模型往更大的去做,现在是千亿级,后面会做到万亿级的模型参数。

这样的技术和产品路线相对来说更平滑,可以把模型越做越大,也可以把模型越做越有用,而不是说一下子做万亿级甚至十万亿级的模型,但可能最后不一定能有真实的行业落地和用户反馈的闭环。

媒体:国内大模型和国外相比差距大概是多少?商汤做大模型有什么差异化?

陈宇恒:国内相较国外目前稍微会有一点差距,但可以很快追上。从差异化的角度,我认为我们在做世界上特别是国内可能都没有人做过的一件事情。大模型是技术范式的革新,最核心的还是需要基于技术去设计用户和客户需要的产品,和模型形成很好的联动效应,形成用户反馈、迭代模型的闭环,最终形成飞轮效应。商汤在2018年就全面开始布局大模型的研发,我们有比较明确的技术路线,在认知、算力、人才等各方面的积累,都不会太落后。

媒体:算力是大模型关键要素,现在算力的紧缺度怎么样?

陈宇恒:未来几年对于高质量的人工智能算力需求将是供不应求,这对国内自主可控的算力也是利好,有需求说明就有市场。我们也在紧锣密步去推进系统扩容,今年还会对外提供单集群3000到4000张的算力基础设施,预计明年会达到万卡级。

媒体:商汤AI大装置已在支持大模型的训练,具体是以什么样的形式去提供支持?

陈宇恒: AI大装置在算力层已经对外输出了超过7000张GPU卡的算力,在MaaS领域会提供推理平台、模型管理平台、数据平台等整套工具链,帮助行业客户高效地开发人工智能大模型。未来还会提供大模型API的试用和调用,让互联网、银行、游戏、科研机构等企业把大模型非常强大的能力应用在原来的产品上。

媒体:AI大装置能多大程度降低企业的部署的难度,如何看待它对AI发展的影响?

陈宇恒:传统小模型定制化和项目化比较严重,难以形成规模化效应,类似传统的小农经济和小作坊,生产效率比较低。大模型最大的特点是泛化能力非常强,可以非常直接或以非常低的成本服务于各行各业,不需要像以前去做大量的手动优化或重新训练的工作。这会使得人工智能生产成本和应用成本急剧降低,是商业模式上很大的转变,从商业逻辑上也满足了变现的需求,相当于技术和商业起到了很好的平衡。

媒体:大模型技术和商业化同时去走的话,会不会拖累技术的后腿?

陈宇恒:如果商业和技术脱节的话,将很难去真正去构建一个好的大模型,也很难去形成商业上的规模效应,两头必须都要齐头并进。

媒体:大装置+大模型的形态出现后,是否会导致越来越多的商业机会向拥有大模型的企业倾斜?

陈宇恒:大装置+大模型这样的形态,是整个人工智能行业赋能者和培养者的角色。它提供了很强大的基础设施,降低人工智能应用和生产的成本,使得在商业上可以跨过商业的红线或者工业的红线,最后大规模地商用。

为什么我们认为大模型是所谓的AI 2.0时代?它使得原来的人工智能生产效率有几十倍甚至上百倍的提升,这会带来非常大的生态繁荣。我们并不觉得出现了大模型或大模型基础设施之后,会形成一些行业的垄断,反之认为这是推进整个人工智能行业生态蓬勃发展的非常重要的组成部分。

媒体:未来商汤在大模型研发和落地这一块,会有怎么样的规划和思考?

陈宇恒:从整体布局来看,我们是以上海临港AIDC为中心,在全国各地甚至未来也有计划在海外去建设人工智能的算力中心,现在在广州、重庆等地建设对应的分中心。

未来大的方向肯定还是继续挑战更大规模的模型,这是未来2到3年,无论是学术界和工业界都是比较明确的方向。从落地角度,会通过MaaS这种方式去提供低成本的推理服务,也会考虑把大模型的能力迁移到小模型上,通过外挂的小模型的微调和训练,分摊大模型推理的成本,推进推理侧商业落地的ROI和性价比。

媒体:ChatGPT的火爆及各大巨头的先后跟进,对商汤已有的产品战略或路线是否有所影响?

陈宇恒:ChatGPT等C端的现象级产品,它的最大贡献是让更多人知道了AI大模型,并在使用场景上做了很好的演示,认可了它的发展潜力。这反而是对商汤在产品战略、技术战略很强的支撑印证,证明了商汤在大模型和大装置上长期投入的正确性。

媒体:这两年AI热点很多,去年是元宇宙,今年又变成大模型,商汤如何看待这些风口?

陈宇恒:元宇宙是人工智能大模型很好的应用场景,AIGC等能力可以很好地解决元宇宙中内容制作成本过高的痛点。对于企业来说,还是要去发挥自己的优势,并且持续地积累和沉淀,去等待机会的出现。要避免盲目跟风,但在机会来临的时候,能够快速以及敏锐地去抓住这些机会。

阅读
本文由用户上传,如有侵权请联系删除!

撰写回复
更多知识