集微网报道 (文/陈兴华)算力江湖,硝烟四起。
在生成式AI和大模型浪潮席卷全球之下,英伟达凭借前瞻的战略布局、先进的产品组合和多年的生态积累,几乎成为人工智能GPU的唯一选择,因而推动其市值一度大幅上扬冲破万亿美元。尽管多家科技巨头、初创公司纷纷加码这一领域,但英伟达一直未棋逢对手。
(相关资料图)
但如今,英伟达或已无法高枕无忧。近日,AMD在美国旧金山举办的“数据中心和人工智能技术首映式”活动上,正式发布MI300系列在内的一系列AI和数据中心相关技术产品,其中包括直接对标英伟达旗舰产品H100的MI 300X,以及全球首款针对AI和HPC的加速处理器(APU)MI300A。这意味着AMD将在人工智能领域与英伟达“正面刚”。
在业界看来,硬刚英伟达,AMD无疑在获取客户,数据和库、硬件加速和生态建设等方面面临重要挑战,以及在当前的行业发展和竞争格局下,其尚未公布的定价将成为战略重点。但在旺盛的市场需求和科技巨头多元布局战略下,AMD MI 300X凭借性能优势以及系列相关建构升级,势必将成为AI市场的有力竞争者,以及英伟达高端GPU的重要替代产品。
硬刚竞品 力创新机
随着AI浪潮席卷全球,AMD已将发展人工智能列为核心战略,在技术创新高地保持强力攻势,并于近日推出了新一代AI芯片、数据中心CPU以及预告将推出全新DPU芯片。显然,其中最受瞩目的莫过于用于训练大模型的AI芯片Instinct MI 300X,直接对标英伟高端GPU H100。至于另一款同期发布的MI300A,号称全球首款针对AI和HPC的APU,以及业界首款“CPU+GPU+HBM显存”一体化的数据中心芯片。
一些分析机构和行业人士研判认为,MI300X性能强大,是对标英伟达高端加速卡的有力竞品。相较H100,MI300X在晶体管数量和显存容量上亦大幅领先。而MI300A凭借CPU+GPU的能力,产品组合性能更高、同时具有成本优势。另外,在收购赛灵思之后,AMD在加速卡领域的定制化服务大幅领先英伟达,能够协助云厂商在特定算法模块上进行训练。
随着下游应用端的高速发展,使得微软、谷歌、Meta等众多海外巨头争相增加算力储备,算力芯片需求高度旺盛之下,英伟达一家独大的市场格局或将迎来转变。
但有所遗憾的是,AMD股价在发布会活动过程中转而走低,收跌3.61%。而同行英伟达则收涨3.90%,市值再次收于1万亿美元关口上方。在投资人眼里,AMD的所谓“超级芯片”MI300X似乎仍然难以撼动英伟达的根基。其中,TIRIAS Research首席分析师Kevin Krewell表示:“我认为,没有(大客户)表示将使用MI300X或MI300A,这可能会让华尔街感到失望。他们希望AMD宣布已经在某些设计方面取代了英伟达。”
目前,AMD公布的客户仅有开源大模型独角兽Hugging Face,以及更早之前透露的劳伦斯利弗莫尔国家实验室。虽然两者与对大模型和数据中心芯片有更大需求的科技巨头不在一个数量级,但在AMD的发布会上值得注意的是,亚马逊旗下云计算部门AWS、甲骨文云、Meta、微软Azure的高管均来到现场。其参会动机一定程度上不言而明。
此后,由于传出亚马逊正在考虑使用MI300人工智能芯片,AMD股价随即上涨约1%。Insider Intelligence分析师Jacob Bourne表示:“亚马逊正在考虑AMD的MI300,这一事实表明科技公司有意使其AI开发硬件多样化,这可能会为其他芯片制造商创造新的机会。”
美国科技类评论家Billy Duberstein也指出,潜在客户对MI300非常感兴趣,正在强烈要求寻找英伟达的替代产品。鉴于目前英伟达H100的服务器价格高昂,数据中心运营商希望看到有一个第三方竞争对手,这有助于降低AI芯片的价格。因此,这对AMD而言是一个巨大的优势,对英伟达来说则是一个挑战。这能为每个市场参与者带来良好的盈利能力。
尚有软肋 定价是“金”
从产品性能来看,AMD MI 300X已在业界力拔头筹,包括支持达192GB的HBM3内存(是英伟达H100的2.4倍),HBM内存带宽达5.2TB/s(是英伟达H100的1.6倍),Infinity Fabric总线带宽为896GB/s,晶体管数量达到1530亿个,远高英伟达H100的800亿个。但AMD并没有公布这款GPU的价格,使得“双雄”竞争增加了悬念。
AMD MI 300处理器
业界分析称,AMD并没有透露新款AI芯片的具体售价,但想要有显著的成本优势可能不太现实,因为高密度的HBM价格昂贵。即便MI300X的内存达到了192GB,但这也不是显著优势,因为英伟达也拥有相同内存规格的产品。
对此,Cambrian-AI Research LLC创始人兼首席分析师Karl Freund也在福布斯网站上发文表示,虽然MI300X芯片提供了192GB内存,但英伟达在这一点上将很快迎头赶上,甚至在相同的时间框架内可能实现反超,所以这并不是一个很大的优势。而且MI300X的售价将会十分高昂,与英伟达的H100相比不会有明显的成本优势。
另据晚点LatePost援引一位AI从业者的话报道称,他所在的公司曾接触一家非英伟达GPU厂商,对方的芯片和服务报价比英伟达更低,也承诺提供更及时的服务。但他们判断使用其它GPU的整体训练和开发成本会高于英伟达,还得承担结果的不确定性和花更多时间。
“虽然A100价格贵,但其实用起来是最便宜的。”他说,对有意抓住大模型机会的大型科技公司和头部创业公司来说,钱往往不是问题,时间才是更宝贵的资源。
不难猜测,这家非“英伟达GPU厂商”是AMD的可能性极高。由此,在AI浪潮下,争市场还是保盈利,将成为MI 300X届时定价的战略重点。但除了价格,AMD势必也面临其它各类挑战。
Karl Freund认为,虽然AMD新推出的MI 300X芯片激起了市场各方的巨大兴趣,但与英伟达的H100芯片相比面临的一些挑战包括,英伟达的H100现在已开始全面出货,而且到目前为止仍拥有AI行业最大的软件和研究人员生态系统。然而,AMD尚未披露任何基准测试,也还没有上市(预计今年第四季度量产)。另外,训练和运行大语言模型(LLM)时的性能取决于系统设计和GPU,MI 300X正式推出时才能看到一些详细比较。
至于真正关键的地方,Karl Freund指出,MI300X并不具备H100所拥有的Transformer Engine(一个用于在英伟达GPU上加速Transformer模型的库)。基于此,H100可以将大模型的性能提高两倍。如果用几千个(英伟达的)GPU来训练一个新模型需要一年的时间,那么用AMD的硬件来训练可能需要再等2-3年,或者投入3倍的GPU来解决问题。
可即便如此,市场也不愿意英伟达以高溢价垄断市场。美国投行TD Cowen在一份报告中指出,“随着市场寻找人工智能市场领军企业英伟达的替代品,AMD成为日益明显的选择。”仅凭这一点,就足以让科技巨头保持对这家公司的高度兴趣。正因如此,资本市场对于AMD给予更多积极的预期。部分行业分析预测,AMD2024年AI相关营收有望达到4亿美元,最高甚至可能达到12亿美元——是此前预期的12倍之多。
生态大战 前程可期
毋庸置疑,与英伟达的H100相比,MI300X也面临着多种挑战和一定劣势。华泰证券表示,AMD对英伟达市场份额的挑战并非能一蹴而就。一方面,英伟达GPU芯片的算力壁垒以及AI训练端的深入布局一时难以撼动,另一方面,AMD的软件生态也限制其与客户系统的融合及渗透应用场景。
可以说,英伟达的领先地位不仅来自于其芯片,还来自于十多年来为人工智能研究人员提供的软件工具。Moor Insights & Strategy分析师Anshel Sag称:“即使AMD在硬件性能方面具有竞争力,但人们仍然不相信其软件解决方案能与英伟达竞争。”
进一步来看,软件生态也被多位行业人士视为英伟达铜墙铁壁一般的护城河。
据悉,英伟达于2007年发布CUDA生态系统。通过使用CUDA,开发者可以将英伟达的GPU用于通用的计算处理,而非仅限于图形处理。CUDA提供了一个直观的编程接口,允许开发者更容易使用C,C++,Python,以及其他一些语言来编写并行代码。2023年,CUDA的开发者已达400万,包括Adobe等大型企业客户。而用户越多构成的生态粘性就越大。
相比之下,AMD在2016年推出了ROCm,目标是建立可替代英伟达CUDA的生态。在发布MI300X等产品时,AMD也展示该公司不断优化ROCm的努力和部分成果。有行业分析称,这会对CUDA有一定影响,但是CUDA有自己护城河,比如其和硬件层面非常贴合,还有Compile tool,Soft stake等很多层级的生态以及一些先天优势。
“但CUDA的护城河已经不是那么绝对,因为客户的上层模型参数可以不做任何调整直接从英伟达的卡迁移到AMD上。ROCm能兼容每一个层级Soft stake,也能在保持稳定性同时提升性能。很多客户不想被英伟达深度绑定,所以会选择AMD。因此,CUDA现在已经不像之前那样坚不可摧。”
上述行业人士还指出,CUDA会持续迭代,而如果AMD一直只是做兼容就需要一直紧跟英伟达,一旦跟不上就会很吃亏。长期来看,这对企业而言肯定不少好事情,需要构建自己的长期系统生态,包括与客户合作开发Soft stake,软件,Rocm数据和库,基于AMD MI硬件做加速等。这是AMD需要长期做的事。
客观而言,与CUDA相比,ROCm在各项投入、技术积累和生态构建等方面还存在一定差距。华泰证券的研究报告称:“目前ROCm的不足之处在于操作系统长期只支持Linux,最近才登陆Windows;加上长期只支持高端GPU,如Radeon Pro系列等,直到今年4月才扩展至一些消费级GPU;另外,CUDA在今年达400万以上的开发者,也是ROCm无法相比的地方。”
与此同时,报告也指出,AMD目前也正积极拓展ROCm生态圈,包括支持Windows操作系统、在AI领域开拓更广泛的框架,如MIOpen和MIVisionX,以及支持TensorFlow、PyTorch等更多软件。此外,ROCm在进一步通过HIP兼容CUDA同时,也与包括微软在内的客户等合作重构自己的生态。而这势必将对英伟达AI芯片的王座形成更强有力挑战。