如果您希望可以时常见面,欢迎标星 收藏哦~
来源:内容编译自techspot,谢谢。
事实证明,如果彻底改变过去 10 年数据中心的建设方式,必然会遇到一些成长的烦恼。虽然头条新闻都是关于人工智能的崛起,但实际情况却有很多令人头疼的问题。
在与系统集成商和其他扩展大型计算系统的人员交谈时,我们听到不断的抱怨,说大型 GPU 集群难以运行。
主要问题是液体冷却。GPU 系统运行时会发热,机架消耗数万瓦的电力。传统的空气冷却不足,导致液体冷却系统被广泛采用。这种转变推高了部署这些系统的 Vertiv 等公司的股价。
然而,液体冷却对于数据中心来说仍然相对较新,熟悉安装液体冷却的人还不够多。因此,液体冷却已成为数据中心故障的主要原因。造成这种情况的原因有很多,但归根结底都是因为水和电子设备不能很好地混合。行业最终会解决这个问题,但这是数据中心正在经历的成长烦恼的一个典型例子。
配置 GPU 也面临许多挑战。这并不奇怪——大多数数据中心专业人员在配置 CPU 方面拥有丰富的经验,但对于他们中的许多人来说,GPU 是一个陌生的领域。
除此之外,Nvidia 倾向于销售完整的设计,这带来了一系列新的复杂因素。例如,Nvidia 的固件和 BIOS 系统并非全新,但它们存在差异且开发不足,导致延迟和异常多的错误。再加上 Nvidia 的网络层,很容易看出这个过程变得多么令人沮丧。专业人士需要在很短的时间内掌握大量新技术。
从总体上看,这些只是减速带。这些问题都还不足以阻止人工智能的发展,但在短期内,它们可能会变得更加明显和引人注目。我们预计超大规模企业将推迟或放慢 GPU 的推出速度,以应对这些挑战。更准确地说,我们可能会听到更多关于这些延迟的消息,因为它们已经开始了。
AMD 最近斥资 50 亿美元进军数据中心
最近我们被问到AMD 收购 ZT Systems背后的逻辑,因为这和安装 AI 集群的日益复杂性密切相关,我们可以用 ZT 作为镜头来观察行业中更广泛的问题。
假设 Acme Semiconductor 想要进入数据中心市场。他们花费数亿美元设计一款处理器。然后他们试图将其出售给超大规模客户,但超大规模客户不想要一块芯片——他们想要一个可以运行的系统来测试他们的软件。
因此,Acme 找了一家 ODM(原始设计制造商),花了几十万美元设计了一台可以运行的服务器,包括存储、电源、冷却、网络和其他所有东西。Acme 制造了几十台这样的服务器,并将它们分发给他们最有希望的销售人员。此时,Acme 的损失约为 100 万美元,他们发现他们的芯片只占系统成本的 20%。
然后,超大规模服务器将花费几个月的时间测试该系统。其中一家公司对 Acme 的性能非常满意,愿意对其进行更严格的测试,但他们不想要标准服务器;他们想要专门为数据中心运营设计的服务器。这意味着服务器设计将采用完全不同的存储、网络、冷却等配置。超大规模服务器还希望 Acme 与他们首选的 ODM 一起构建这些测试系统。
为了达成交易,Acme 为这个新设计买单,不过至少超大规模提供商支付了测试系统的费用——Acme 终于有了一些收入,可能是 10 万美元。当第一个超大规模提供商进行为期数月的评估时,第二个客户表示了兴趣。当然,他们希望拥有自己的服务器配置和自己喜欢的 ODM。Acme 需要这项业务,因此也承担了这项设计的费用。
Acme 接触了所有 OEM,看是否有人愿意设计目录系统来简化流程。OEM 都非常友好,对 Acme 正在做的事情很感兴趣。干得好,但只有 Acme 获得更多业务后,他们才会承诺进行设计。
最后,客户想要批量购买——这对 Acme 来说是一个巨大的胜利。这一次,由于涉及到真正的批量,ODM 同意进行设计。但是,新服务器将使用超大规模服务器内部设计的网络和安全芯片,这些芯片是保密的。Acme 从未见过它们,对新服务器知之甚少,该服务器是客户和 ODM 直接设计的。ODM 构建了一堆服务器,然后在超大规模服务器的数据中心内将它们连接起来,打开电源开关,事情立即开始出现问题。
这是意料之中的事,因为错误无处不在。但很快,每个人都开始将问题归咎于 Acme,而忽略了 Acme 在很大程度上被排除在设计过程之外的事实。他们的芯片是 ODM 和客户最不熟悉的组件。Acme 在评估周期内与客户合作解决错误,但这次不同。
该系统的大部分都是新的,风险更高,因此每个人都在压力下工作。Acme 将其现场工程师派往超远程数据中心亲自操作该系统。三个团队努力解决这些错误,并在此过程中发现了更多错误。最终,事实证明,Acme 的处理器在与超大规模服务器的安全芯片交互时进入了一种模糊的错误模式,网络组件很脆弱,性能远低于规格,当然,每个芯片都运行不同的固件,与其他固件不兼容。
最糟糕的是,液体冷却(调试团队中没有人接触过的东西)可能导致了 50% 的问题。随着团队解决问题,部署过程被拖延了。在某个时候,一些重要的东西需要完全更换,这会增加更多的延误和成本。但经过数月的努力,系统终于投入生产。然后 Acme 的第二个客户决定他们想要进行更深入的评估,整个过程又重新开始。
如果这听起来还不够痛苦的话,我们甚至还没有提到律师。
为了启动该项目,Acme 不得不花费九个月的时间,从非常弱势的地位与超大规模提供商谈判苛刻的条款。在设计定制服务器时,三家公司(Acme、ODM 和客户)可能花了六周时间谈判保密协议。
多年来,服务器一直都是这样构建的。后来,Nvidia 进入市场,带来了自己的服务器设计。不仅如此,他们还带来了整个机架的设计。Nvidia 从事系统设计已有 25 年,最早可以追溯到他们在显卡方面的工作。他们的团队还构建了自己的数据中心,因此他们拥有一支经验丰富的内部团队来处理所有这些问题。
为了与 Nvidia 竞争,AMD 可以花五年时间复制 Nvidia 的团队,也可以收购 ZT。理论上,ZT 可以帮助 AMD 消除上述几乎所有摩擦。现在判断这在实践中效果如何还为时过早,但 AMD 在合并整合方面已经做得相当不错了。老实说,我们很乐意支付 50 亿美元,以避免再次谈判三方保密协议和主服务协议。
参考链接