谷歌周二公布了用于训练人工智能模型的超级计算机的新细节,称这些系统比英伟达同类系统更快更省电,据路透。
谷歌已经设计了自己的定制芯片,称为张量处理单元,或称TPU。TPU(Tensor Processing Unit)是一种专门为机器学习任务设计的处理器,主要用于加速神经网络和其他类似的计算密集型任务。
谷歌公司90%以上的人工智能培训工作都使用这些芯片,即通过模型输入数据,使其在用类似人类的文字回复查询或生成图像等任务中发挥作用。
谷歌的TPU现在已经是第四代了。谷歌周二发表了一篇科学论文,详细介绍了如何使用自己定制开发的光学开关,将4000多个芯片串联成一台超级计算机,以帮助连接各个机器。
改善这些连接,已经成为人工智能超级计算机的公司竞争的关键,因为为谷歌的Bard或OpenAI的ChatGPT等大型语言模型的规模,已经爆炸性增长,这意味着无法存储在单个芯片上。
相反,这些模型必须被分割到数以千计的芯片上,然后这些芯片必须共同工作数周或更长时间来训练模型。谷歌的PaLM模型,迄今为止其公开披露的最大的语言模型,是通过将其分割到4,000个芯片的两台超级计算机上,历时50天进行训练的。
谷歌表示,其超级计算机可以很容易地在运行中重新配置芯片之间的连接,帮助避免问题和调整以提高性能。
谷歌研究员诺姆·乔皮和谷歌杰出工程师大卫·帕特森在一篇关于这个系统的博文中写道:”电路切换使我们很容易绕过故障的组件,这种灵活性甚至允许我们改变超级计算机互连的拓扑结构,以加速ML(机器学习)模型的性能。”
虽然谷歌现在才公布超级计算机的细节,但自2020年以来已经在公司内部位于俄克拉荷马州梅耶斯县的一个数据中心上线。谷歌表示,初创公司Midjourney使用这个系统来训练其模型,系统在被输入几句话的文本后会生成新鲜的图像。
谷歌在文件中说,对于同等规模的系统,其芯片比基于英伟达A100芯片的系统快1.7倍,省电1.9倍,英伟达的芯片与第四代TPU同时上市。
谷歌表示,没有将其第四代产品与英伟达目前的旗舰产品H100芯片进行比较,因为H100是在谷歌的芯片之后上市的,而且是用更新的技术制造的。
谷歌暗示它可能正在开发一种新的TPU,与英伟达H100竞争,但没有提供细节,乔皮告诉路透社,谷歌有 “一个健康的未来芯片渠道”。