logo
繁体
繁体

越变越小的芯片,开始给数据中心造成越来越大的麻烦(收费)

纽约时报的John Markoff报道了芯片界一个鲜为人知的问题,许多的芯片开始出现难以被发现的缺陷,开始影响到0歌和脸书等公司的数据处理能力。专家认为,这是因为新式的芯片使用的晶体管越来越小,而这些微小的硬件无法承受过大的运算量,使它们容易受到损耗。

Photo by Brian Kostiuk on Unsplash 

想象一下,为世界上最大的数据中心提供动力的服务器内的数百万块计算机芯片中出现了罕见的、几乎无法检测到的缺陷。而找到这些缺陷的唯一方法是用大量的运算来测试这些芯片,这在十年前是不可想象的。

随着计算机芯片中的微小部件已经缩小到几个原子的宽度,芯片的可靠性已经成为经营世界上最大网络的人的另一个担忧。亚马逊、脸书、推特等公司和许多其他网站在去年都经历了令人惊讶的故障。

这些故障有几个原因,如编程错误和网络拥堵。但是,人们越来越担心,随着云计算网络变得更大、更复杂,它们在最基本层面上仍然依赖于计算机芯片,而这些芯片现在并不是很可靠,在某些情况下会出现难以预测的问题。

在过去的一年里,脸书和谷歌的研究人员都发表了研究报告,表示计算机硬件故障的原因不容易确定。他们认为,问题不在软件上,而是在各公司制造的计算机硬件的某个地方。谷歌拒绝对它的研究发表评论,而脸书没有回复对其研究的评论请求。

斯坦福大学专门从事计算机硬件测试的电气工程师苏巴什·米特拉说:“他们发现了这些隐藏的错误,基本上是来自底层硬件。”

米特拉说,人们越来越相信,制造中的缺陷与这些不易被发现的隐藏错误有关。

研究人员担心,发现罕见的缺陷是因为他们正试图进行越来越大的计算,从而对系统施加了意想不到的压力。

运行大型数据中心的公司早在十多年前就开始报告系统性问题。2015年,在工程出版物《IEEE Spectrum》上,多伦多大学研究硬件可靠性的一组计算机科学家报告说,谷歌每年的数百万台计算机中,有多达4%遇到了无法检测的错误,导致意外关闭。

在一个拥有数十亿个晶体管的微处理器中,或一个由数万亿个微小开关所组成的计算机内存板中,每个开关都可以存储1或0,即使是最小的错误,也会破坏现在每秒钟例行进行数十亿次计算的系统。

在半导体时代开始时,工程师们曾担心过宇宙射线可能偶尔会翻转晶体管,并改变计算的结果。而现在他们担心的是,这些开关本身变得越来越不可靠。脸书的研究人员甚至认为,开关正变得越来越容易磨损,计算机存储器或处理器的寿命可能比之前所认为的要短。

越来越多的证据表明,这个问题正随着每一代新芯片的出现而恶化。芯片制造商超微半导体(AMD)公司在2020年发表的一份报告发现,当时最先进的计算机内存芯片的可靠性比上一代产品大约低5.5倍。AMD没有回应对这份报告的评论请求。

资深的硬件工程师大卫·迪策尔说,追踪这些错误是具有挑战性的,他是Esperanto Technologies的董事长和创始人,Esperanto Technologies是一家位于加州山景城的新型处理器制造商,专门设计人工智能应用。他说,他公司的新芯片刚刚进入市场,其中有1000个由280亿个晶体管组成的处理器。

Photo by Michael Dziedzic on Unsplash 

他把这种芯片比作一座公寓楼,这栋公寓楼的大小将跨整个美国的表面。按照迪策尔的比喻,米特拉说,寻找新的错误有点相当于在这栋楼的某间公寓里寻找一个开着的水龙头,而它只有在卧室的灯亮着和公寓的门打开时才会出现故障。

到目前为止,计算机设计人员一直试图通过在芯片中加入纠正错误的特殊电路来处理硬件缺陷。这些电路会自动检测并纠正不良数据。这曾经被认为是一个极其罕见的问题。但是几年前,谷歌的生产团队开始报告一些令人抓狂的错误,它们难以被诊断。根据他们的报告,计算错误会断断续续地发生,而且很难重现。

一个研究小组试图追踪这个问题,并在去年发表了他们的调查结果。他们发现,谷歌庞大的数据中心,由基于数百万个处理器“内核”的计算机系统组成,正在经历新的错误,这可能是几个因素的组合:包括已经接近物理极限的较小的晶体管以及测试不够充分。

在他们的论文《不再算数的内核》(Cores That Don’t Count)中,谷歌的研究人员指出,这个问题具有足够的挑战性,他们已经投入了相当于几十年的工程时间来解决这个问题。

现代处理器芯片是由几十个处理器内核组成的,这些计算引擎使得分解任务然后分别解决任务成为可能。研究人员发现,一个极小的内核子集只会在特定条件下,并不经常地产生不准确的结果。他们将这种行为描述为零星的。在某些情况下,只有当计算速度或温度被改变时,内核才会产生错误。

谷歌称,处理器被设计得越来越复杂是导致故障的一个重要原因。但工程师们还说,更小的晶体管、三维芯片和只在某些情况下产生错误的新设计都是造成这一问题的原因。

在去年发布的一篇类似的论文中,一组脸书的研究人员指出,一些处理器会通过制造商的测试,但当它们在现场被偷入使用时,就开始出现故障。

英特尔高管表示,他们知道谷歌和脸书的研究论文,并正在与这两家公司合作,开发检测和纠正硬件错误的新方法。

英特尔数据平台集团副总裁布莱恩·约根森说,研究人员的推断是正确的,“他们向业界提出的挑战是正确的方向。”

他说,英特尔最近启动了一个项目,帮助为数据中心运营商创建标准的、开源的软件。这些软件将使他们有可能发现并纠正芯片中的内置电路无法检测到的硬件错误。

Photo by Taylor Vick on Unsplash 

去年,当英特尔的几个客户悄悄地发出警告,因为系统中产生了未检测到的错误,这进一步强调了这个问题带来的挑战。世界上最大的个人电脑制造商联想公司通知它的客户,几代英特尔至强(Xeon)处理器的设计变化,意味着这些芯片可能会比早期英特尔的微处理器产生更多无法纠正的错误。

英特尔没有公开谈论这个问题,但约根森承认有这个情况,并说已经得到了纠正。此后,公司改变了芯片设计。

计算机工程师对如何应对这一挑战存在分歧。一个普遍的反应是增加对新型软件的需求,这些软件能够主动检测硬件错误,并提醒系统操作人员在硬件开始退化时移除硬件。这为新成立的公司创造了机会,这些公司提供的软件可以监测数据中心底层芯片的健康状况。

位于加州洛思加图斯的TidalScale公司就是这样一家公司,公司为试图尽量减少硬件故障的公司制作专门的软件。其首席执行官加里·斯默登表示,TidalScale和其他公司都面临着一个巨大的挑战。

他说:“这将有点像在飞机仍在飞行时更换发动机。”