芯片制造的“极限挑战”。
如果用一句话概括英伟达的“下跌根源”,那便是——尖端芯片,性能越强、制造越难。
周三,英伟达在报告了强劲的季度销售和利润时也指出,新芯片的制造难题导致利润率下降,公司在最近一个季度计提了9.08亿美元的准备金。受此影响,其股价在周四下跌了6.4%。
该公司在声明中承认, Blackwell架构GPU存在良率问题,需要重新设计B200处理器部分设计以提升良率,因而下一代Blackwell架构GPU量产时间将推迟至2024年第四季度:
“我们调整了Blackwell GPU的设计,以提升生产良率。Blackwell的生产计划将于第四季度启动,并持续至2026财年。
我们预计Blackwell产品将在第四季度实现数十亿美元的营收。”
英伟达并未详细说明问题的具体原因。但分析师和行业高管认为,工程挑战主要源于Blackwell芯片的设计带来的复杂制造工艺问题。
分析指出,Blackwell的巨型尺寸及复杂设计带来了前所未有的制造复杂性,任何一个部件的缺陷都可能导致芯片报废,从而影响良品率和利润。此外,芯片各部分的热膨胀系数差异也可能导致封装翘曲,影响性能和可靠性。
为提高良品率,英伟达已对Blackwell设计进行调整,并计划按计划提高产量。但分析师认为,采用台积电新型芯片连接技术的复杂性,以及芯片尺寸带来的固有挑战,仍将是Blackwell量产的主要障碍。
行业分析公司TechInsights的副总裁G. Dan Hutcheson表示:
“问题在于如何让芯片协同工作及提高良品率,当芯片各个部分的良品率不够高时,一切都可能迅速变差。”
1. Blackwell芯片的复杂性
为了保持在人工智能芯片领域的领先地位,英伟达(NVDA)寄希望于“越大越好”的理念。然而,更大的尺寸,在带来更强性能的同时,也带来了更大的制造难度。
英伟达最新的AI芯片Blackwell,被黄仁勋描述为“非常非常大的GPU”,在物理意义上,它确实是当前面积最大的GPU,由两颗Blackwell裸片拼接而成,采用台积电4nm工艺,拥有2080亿晶体管——是前代产品的2.6倍。
瑞银分析师在本月早些时候的一份报告中表示,英伟达在Blackwell上遇到的主要问题是采用台积电 CoWoS-L 新型封装方式过于复杂。
半导体行业专业媒体semianalysis报道称,该封装技术使用带有本地硅互连(LSI)桥接的RDL中介层连接芯粒,传输速率可达10 TB/s左右,这些桥接的放置精度要求极高—— 任何一个部件的缺陷都可能导致整块价值4万美元的芯片报废,从而影响良品率和利润。
此外,由于GPU芯粒、LSI桥接、RDL中介层和主板基板之间的热膨胀系数(CTE)不匹配,导致了芯片翘曲和系统故障。据报道,为提升良率,英伟达不得不重新设计GPU芯片的顶部金属层和凸点。
黄仁勋在与分析师的电话会议上强调,Blackwell芯片不需要进行任何“功能性改变”,所有调整均是为了提升良率。
首席财务官 Colette Kress 表示,英伟达正按计划提高 Blackwell 的产量,预计在四季度,Blackwell 将为公司带来数十亿美元的收入。
2. "巨型芯片" 战略
这类问题并非英伟达独有。业内人士表示,随着芯片制造商希望通过增大芯片尺寸来提高处理能力,这类问题会越来越多。为了消除缺陷或提高良品率而进行的芯片设计变更在业内也很常见。
芯片巨头AMD的CEO苏姿丰也指出,随着芯片尺寸不断增大,制造复杂性将不可避免地上升。下一代芯片需要在能效和功耗方面取得突破,才能满足人工智能数据中心对计算能力的巨大需求。
“要使这些技术发挥作用,需要大量的技术投入,”她说。“它们会变得更加复杂和更大吗?毫无疑问。这就是我们的现实。”
当然, 为突破单个芯片的尺寸限制,英伟达将两块最大尺寸芯片组合,打造出Blackwell的激进策略也引来了竞争对手的质疑。
竞争对手Cerebras Systems创始人Andrew Feldman认为,开发多芯片组合技术的难度将呈指数级增长。Cerebras Systems选择开发巨型单芯片,并推出了基于此的人工智能云计算服务,试图挑战英伟达的市场地位。
Andrew Feldman表示:
“在人工智能领域进行有意义的工作,需要大量计算能力,这需要大量晶体管,比单个芯片所能容纳的还要多......
开发出双芯片技术已经很难,开发出四芯片技术更难,而开发八芯片技术更是难上加难。”
英伟达的巨型芯片战略能否最终胜出,仍有待市场检验。但可以肯定的是,芯片制造的极限挑战才刚刚开始。
编辑/ping