logo
繁体
繁体

推理计算会给人工智能芯片市场带来什么样的变化?英伟达AI芯片面临更多竞争

金融时报分析说,英伟达的竞争对手正在抓住一个新机遇,试图打破其在人工智能芯片领域的主导地位。中国创业公司DeepSeek的最新进展,加速了人工智能计算需求的转变。

Coolcaesar, CC BY-SA 4.0 <https://creativecommons.org/licenses/by-sa/4.0>, via Wikimedia Commons

DeepSeek的R1模型以及其他所谓的“推理”模型,如OpenAI的o3和Anthropic的Claude 3.7,在用户请求时消耗的计算资源,比以往的人工智能系统更多,这个过程被称为“推理”。

这改变了人工智能计算需求的重点,此前主要集中在训练或创建模型。随着企业和个人对人工智能应用的需求增长,推理预计将在技术需求中占据更大的比重,而这些应用超越了当前流行的聊天机器人,如ChatGPT或xAI的Grok。

正是在这一领域,英伟达的竞争对手——从人工智能芯片制造创业公司如Cerebras和Groq,到谷歌、亚马逊、微软和Meta等科技巨头开发的定制加速器芯片,正在集中力量挑战这家全球最有价值的半导体公司。

“训练创造人工智能,而推理使用人工智能。”Cerebras的首席执行官安德鲁·费尔德曼表示,“人工智能的使用量大幅增长……目前,制造一款专注于推理的芯片的机会比以往更大。”

英伟达主导着大规模计算集群市场,例如马斯克的xAI在孟菲斯的设施或OpenAI与软银合作的Stargate项目。但英伟达的投资者希望得到保证,公司能在规模较小、专注于推理的数据中心建设方面,继续超越竞争对手。

Together AI的首席执行官兼联合创始人维普尔·韦德·普拉卡什表示,推理是他公司业务的“重点”。Together AI是一家专注于人工智能的云计算提供商,上个月在由General Catalyst领投的融资中估值达33亿美元。

“我认为,大规模运行推理最终会成为互联网最大的计算工作负载。”他说。

摩根士丹利的分析师估计,未来几年,美国数据中心超过75%的电力和计算需求将用于推理,尽管他们警告称,具体转型方式仍存在“重大不确定性”。

即便如此,如果人工智能使用率继续保持当前增速,数千亿美元的投资可能会在未来几年涌向推理设施。

巴克莱的分析师预计,在“前沿人工智能”领域(指最大和最先进的系统),推理的资本支出将在未来两年内超过训练,从2025年的1226亿美元跃升至2026年的2082亿美元。

虽然巴克莱预测英伟达在前沿人工智能训练市场,将“基本上拥有100%的市场份额”,但在推理计算市场,长期份额预计仅为50%。这意味着到2028年,英伟达的竞争对手将有近2000亿美元的芯片市场可争夺。

“市场对更优、更快、更高效的芯片有着巨大的需求。”英国芯片创业公司Fractile的创始人沃尔特·古德温表示。他认为云计算提供商“急切希望找到能够减少对英伟达依赖的替代方案”。

英伟达首席执行官黄仁勋坚称,公司芯片在推理和训练方面同样强大,并瞄准了一个巨大的新市场机会。最新Blackwell芯片被设计用于更好地处理推理,许多早期客户正在使用这些芯片来运行人工智能系统,而非训练。

此外,英伟达的专有Cuda架构软件,在人工智能开发者中的受欢迎程度,也为竞争对手设置了巨大门槛。

“推理计算的需求已经是早期大语言模型时代的100倍。”黄仁勋在上个月的财报电话会议上表示,“这只是个开始。”

在过去两年里,由于更强大的芯片、更高效的人工智能系统以及谷歌、OpenAI和Anthropic等人工智能开发商之间的激烈竞争,大型语言模型的运行成本迅速下降。

OpenAI首席执行官山姆·奥特曼上个月在一篇博客文章中表示,“人工智能的使用成本每年降低约10倍,而更低的价格将带来更多的应用。”

DeepSeek的v3和R1模型,在今年1月因被认为降低了训练成本而引发市场恐慌,而这一中国创业公司的架构创新和编码优化进一步降低了推理成本。

与此同时,推理任务所需的计算方式——包括更大的内存需求,以处理更长、更复杂的查询,为替代英伟达图形处理单元(GPU)的其他方案打开了大门。英伟达的GPU优势在于处理大量相似计算,而非复杂的内存操作。

Cerebras的费尔德曼表示,“推理的性能取决于你能够多快地在硬件上移动数据进出内存。”

Cerebras的芯片,已被法国人工智能创业公司Mistral用于加速其聊天机器人Le Chat的性能。

速度对于吸引用户至关重要。费尔德曼表示:“25年前,谷歌搜索就显示出,即使是微秒级的延迟都会降低用户的注意力。”

他说,“我们有时能在一秒内为Le Chat生成答案,而OpenAI的o1可能需要40秒。”

英伟达坚持认为自己芯片在推理和训练方面同样强大,并表示在过去两年中,公司产品的推理性能提升了200倍。目前,数亿用户正在通过英伟达的数百万个GPU访问人工智能产品。

“我们的架构具有灵活性,可以轻松适用于不同的使用场景。”黄仁勋上个月表示,无论是用于构建大模型,还是提供新的人工智能应用。

Together AI的普拉卡什表示,他的公司目前使用相同的英伟达芯片进行推理和训练,“这非常有用”。

与英伟达的“通用”GPU不同,推理加速器在针对特定人工智能模型进行优化时表现最佳。然而,在这个快速发展的行业中,如果芯片创业公司押错人工智能架构,可能会面临风险。

“通用计算的一个优势在于,当模型架构发生变化时,你拥有更大的灵活性。”普拉卡什表示,并道,“我的感觉是,在未来几年,硅芯片市场将呈现复杂的多样化格局。”