英特尔推定制版AI芯片，中国客户会买单吗？｜焦点分析

作者｜杨逍

采访｜周鑫雨杨逍

编辑｜邓咏仪苏建勋

英特尔正对人工智能市场发起猛烈进攻。

7月11日，英特尔召开芯片发布会，针对中国市场推出高端AI处理器Gaudi 2，一款支持加速AI训练和推理任务的芯片。

自大模型和生成式AI兴起后，尚未出现能与英伟达GPU一较高下的产品。今年6月，AMD推出了针对AI需求的Instinct MI300，但芯片发布后，AMD股价反而下跌。

Gaudi 2的推出意味着英特尔的新一轮进攻开始。发布会上，英特尔没有介绍Gaudi 2的具体参数，但从训练时间、性价比、可扩展性、易用性等多个角度，将Gaudi 2和英伟达的A100、H100一一作对比，只为凸显一个主题——Gaudi 2可用，Gaudi 2具有性价比，Gaudi 2很强。

Gaudi 2出自以色列人工智能公司Habana Labs团队，该公司在2019年被英特尔收购，之后独立运营。

Habana Labs首席运营官Eitan Medina表示，在2023年6月的国际性AI芯片测试MLPerf上“Gaudi2是目前仅有的两个提交GPT-3模型训练结果的半导体解决方案之一，另一个是Nvidia H100。”

发布会上，英特尔还带来了浪潮基于Gaudi2的新一代 AI 服务器 NF5698G7，并表示在未来，国内的新华三、超聚变等公司也会参与合作。

英特尔的产品性能具体如何，市场是否会买单，中国作为最大的人工智能芯片市场，对其接受度如何呢？

比H100有性价比，比A100性能强？

自AI大模型火热以来，英伟达一家独大。对于英特尔在人工智能领域的策略，市场期待已久。

2023年年初，英特尔中国区董事长王锐就在战略媒体沟通会上回应，英特尔高层正认真对待人工智能浪潮，并适时推出产品。

本次发布Gaudi 2芯片是由Habana团队制作的产品。事实上，该芯片曾于去年在海外发布，此次发布的是针对中国市场的定制版本。

Gaudi 2采用7nm制程，有24个张量处理器核心，集成了96GB的HBM高性能存储和48MB的SRAM静态随机存储器，是专门为训练大语言模型而生的产品。

Gaudi 2产品性能

针对不同精度的峰值数据，英特尔并未做过多介绍。Eitan Medina告诉36氪，英特尔并不希望专门比算力或者数字，而是将重心放在应用上，“我们的产品和整体解决方案能为客户提供很好的性能。”

在发布会上，Eitan Medina通过MLPerf基准测试结果来展现Gaudi 2的性能。MLPerf基准测试是一个专门针对AI芯片进行测评的国际测试，此前，壁仞科技就曾参与该测试，与英伟达一较高下。

MLPerf每年会进行两次测评，在距离最近的2023年6月测评中，Gaudi 2是除了Nvidia H100以外，唯一提供了GPT-3模型训练结果的半导体解决方案。

Gaudi2与H100对比

根据英特尔提供的信息，Gaudi2的性能低于H100，但高于A100。

Gaudi2在384个加速器上训练GPT-3需要311分钟，而英伟达用512个H100 GPU训练GPT-3的时间只需要64分钟，也就是说，H100的性能领先于Gaudi2 芯片3.6倍。

在8个加速器情况下，Gaudi2跑计算机视觉模型ResNet-50和Unet3D的效果不错，和H100的差距会比运行GPT-3时小很多。

针对和H100的差距，英特尔认为，Gaudi2的优势在于性价比。Gaudi2服务器的成本要比H100低得多。

相较A100，Eitan Medina表示，根据MLPerf的报告，Gaudi2在每个模型上的训练效果都优于A100。且Gaudi2具有成本优势，它运行 ResNet-50 的每瓦性能约是英伟达 A100 的 2 倍，运行 1760 亿参数 BLOOMZ 模型的每瓦性能约达 A100 的 1.6 倍。

Gaudi2与A100性能对比

为了合规，Gaudi 2与国际版存在区别。但英特尔Habana Labs首席运营官Eltan Medina告诉36氪，相比于国际版 Gaudi2，中国版Gaudi 2推出的加速卡在性能上差别不会很大，只是以太网端口数量从24个改为21个，整体计算性能未有下降。未来，Gaudi2 及下一代 5nm的Gaudi3 都会在合法合规的情况下继续支持中国客户。

目前，英特尔内部有多款可用于人工智能市场的产品，如何看待不同产品的功能和市场？

英特尔公司执行副总裁数据中心与人工智能事业部总经理Sandra Rivera认为，客户有不同的产品需求，中小型模型客户可以选择至强作推理，生成一张图片只需要5秒钟；而客户做千亿级新模型的训练需要更大算力，可以采用Gaudi芯片。

在发布会上，Sandra Rivera也对至强芯片做了介绍。在AI推理工作负载中，至强的推理性能与英伟达A100 GPU相比可超5倍，与AMD的64核EPYC CPU相比可超2倍。在执行训练工作时，至强CPU的性能较英伟达A100 GPU有近3倍的性能提升，可以在几秒钟或几分钟内完成训练，能降低客户成本。

发布会上，英特尔还展示了至强芯片对于Stable Diffusion模型的生成效果。Stable Diffusion模型能够文生图和图生图，结果显示基于至强芯片运转后，该模型在5.34秒生成了一张图像。

为更好抓住推理市场，英特尔正优化基于至强的推理平台，以便在云、网络或智能边缘部署多样化的AI应用程序。

英特尔Habana的 GPU，客户会买单吗？

没有一家AI芯片公司，愿意错过大模型和生成式AI带来的巨大市场。

从大模型热潮以来，国内的GPU公司纷纷加强在生成式AI相关能力上的投入和研发。然而，至今没有出现一款能和A100、H100对打的产品。

英特尔内部有 GPU MAX产品，但英特尔选择将Habana的产品作为王牌推向市场，希望以此逐鹿人工智能市场。

Habana可能更能给市场信心。2019年，英特尔以20亿美元高价收购了以色列AI芯片制造商Habana Labs，Habana作为独立业务部门运营，希望在数据中心AI领域挑战英伟达。

Habana同时有面向数据中心的AI训练芯片 Gaudi （高迪）和AI推理芯片Goya（戈雅），以及完整的SynapseAI软件栈，且其第一代产品就体现出了能耗与时延的优势。

它的创始人Avigdo是一个技术大牛，曾成立了交换机芯片公司Galileo，后来卖给了Marvel；2011，Avigdor又成立了网络智能公司Annapurna Labs，2015年以3.7亿美元的价格被亚马逊收购。

这样的基因，让Habana的产品在性能上能有所保障。不过，Habana lab被收购后，需要融合进英特尔公司，在一段时间内后继表现相对乏力。

除了硬件产品，另一个构成英伟达壁垒的，是其Cuda软件生态。英特尔的产品如何应对Cuda生态？

Sandra Rivera认为，在数据中心的软件生态中，一个是X86的软件生态，一个是CUDA。在做人工智能或者是AI运算时，大部分的开发者不会做那么底层的开发，更多在PyTorch、TensorFlow上做创新。Gaudi2的软件生态本身支持PyTorch、TensorFlow这两个深度学习最常见的两个框架，同时支持Megatron和DeepSpeed这两个当今在大模型当中最主流的大模型训练框架。

为适配更多大模型，英特尔与专门做大模型的开源社区叫Hugging Face达成合作，可以在几十秒时间内调通现有模型。

浪潮信息AI&HPC产品线总经理刘军也在发布会上表示，“按照我们算法工程师实际使用的体验，使用Gaudi2和在GPU上使用基本上没有太大区别，客户可以非常丝滑地把自己的训练负载运行在Gaudi2的训练集群上。”

浪潮信息也在会上发布了支持8颗Gaudi2深度学习加速器进行高速互连的加速的基板，新一代AI服务器NF5698G7。

浪潮AI服务器NF5698G7

英特尔还透露，Gaudi2国内首批还将与百度智能云、紫光新华三、超聚变等公司合作。

中国有着庞大的AI计算市场，国内大模型公司是否愿意买单？

某AI模型层创企的CTO告诉36氪，目前存在顾虑。“在训练100亿参数规模模型10轮情况下，其他公司的芯片训练速度，普遍比A100多出10几天，宁愿多花钱买点A100或H100,也不想耽误训练的时间。而英特尔披露的信息主要宣传在ResNet模型上的性能提高，但ResNet和Transformer类模型存在较大区别。且Gaudi2在2022年已经发布，市场的选择已经说明问题。”

另一家大模型公司则表示，已与国内GPU产品达成合作，如果采用英特尔的产品，还需要重新测试，暂时无法确定是否会采购英特尔的产品。

在人工智能计算市场，英伟达独占鳌头，要么一卡难求，要么难以购买，无论是从产品供应角度，还是从能使用更优秀产品，缩减与国外大模型厂商的算力支持角度，市场期待第二款AI芯片。

英特尔、AMD跃跃欲试，国内的GPU公司也纷纷抓住训练市场，或通过大型集群的方式希望支持国内公司发展。

Habana Gaudi 2是否会成为下一个A100，仍需市场的回应。