AI芯片供电竞争白热化

阅读模式 · 2023-8-7 09:56:26

AI加速器对电力需求日益增加。Nvidia H100的热设计功率（TDP）为700瓦特（W），而全球最常安装的数据中心CPU，Intel Skylake/Cascade Lake的TDP则低于200W。下一代芯片将需要更多功率来支持更高的计算密度。这将需要机架级别的功率超过200千瓦，而目前传统CPU服务器机架的功率只有15-20千瓦。

随着功率的增加，需要解决更多挑战。特别是，更高的功率导致了不成比例的传输和转换损耗，即被浪费的功率。由于电力成本是数据中心最大的费用之一，减少功率损耗对于提高总拥有成本（TCO）至关重要。因此，我们现在看到功率传递网络从机架级别到芯片级别被重新设计，以解决AI训练和推理等高功率计算负载中的这个问题。

先进的功率传递架构的主要目的是提高效率。今天我们将深入探讨这个主题的技术和竞争格局。功率传递公司Vicor在这一趋势下受益最多。在过去的十年里，Vicor从供应普通功率组件的供应商发展为参与先进数据中心电源应用的公司，在各种超大规模数据中心机架级功率解决方案和Nvidia、谷歌、AMD、Cerebras、特斯拉和英特尔的AI加速器中获得设计胜利。

然而，由于电力市场的动态性质，Vicor的命运近期迅速发生了变化。一年多前，我们独家发现和披露，单片功率系统公司成功取代Vicor成为Nvidia H100 GPU的供应商。此外，Vicor的第二大客户的关系也变得动荡不安。此外，超大规模数据中心机架功率解决方案也发生了许多变化，包括多个新竞争对手（MPS、Delta、Renesas、ADI）。

这个故事一直变化不定，Vicor的未来角色变成了一个战场。最近的新闻，Vicor对竞争对手的诉讼，超大规模数据中心的部署，以及公司领导层的不可思议的声明都给了双方有力的支持。

今天我们将介绍一下功率传递的基础知识，Vicor的技术领先地位，我们对Vicor的因式分解电源架构和垂直电源传递技术的评估，重要的设计胜利，包括Vicor是否在H100或TPUv5中的细节，Vicor在汽车行业的潜力，以及对他们的长期影响。我们还将分享我们对他们的4个主要竞争对手（MPS、Delta、Renesas和ADI）的看法，以及目前正在爆发的法律战争。

芯片的电源传输简介

电力在交流（AC）网格中以高达数十万的电压产生和传输。计算和存储芯片需要稳定且干净的低电压直流（DC）电源。过多的电压会使芯片的精密电路超负荷和损坏。电压过低，芯片的电路将无法正确切换。变压器、电源单元（PSU）和电压调节模块（VRM）的任务是将正确类型的电源传递给芯片。随着功率需求的增加，高效的电源传递也变得更具挑战性。

在像GPU或CPU这样的电路中，有四个主要的值：功率、电流、电压和电阻。功率（P）是每单位时间使用的能量的测量，通常用瓦特（W）表示。电流是电子流动的量的测量，或者换句话说，电子的流动速率。电流（I或A）通常用安培（A）表示。电压（V）是两点之间的电势差。你可以把电压想象成推动电子通过回路的压力。

电压通常以伏特（V）为单位给出。最后，我们有电阻（R），通常以欧姆（Ω）为单位给出，它表示电流在材料中流动的难度。为了使用这些值，我们需要欧姆定律，我们将重点讨论欧姆定律的两种不同形式。第一种形式是P = I * V，简单地表示功率等于电流乘以电压。第二种形式是P = R * I^2，意味着功率还等于电阻乘以电流的平方。

硅运行在约1V直流或更低的低电压下。为追求功率效率，设计正在转向较低的时钟速度和较低的工作电压，以在性能/功率曲线的更高效段运行。

然而，在低电压和高电流下输送电力会产生较大的功率损耗（I^2R）来自电力线的电阻。最小化功率损耗的关键是以更高的电压和较低的电流来传输电力，然后尽可能靠近活动硅降低电压。

什么构成了电压调节模块（VRM）？

VRM是一个重要的部件组合，它将系统电源单元（PSU）的输入电压转换为正确的电压来供电SoC。通常情况下，我们会在包含芯片的PCB上看到VRM，虽然在一些罕见的情况下，这些组件可能位于芯片本身上，甚至集成在硅上。现代VRM由三个主要部分组成：电容器、电感和功率级。电容器储存电能，然后以恒定的速率释放能量，平滑传送给处理器的电力。电感用于抵抗电流变化，防止大量电流冲击杀死处理器。

最后，而且可以说是VRM中最重要的部分是功率级，它将来自电源单元（PSU）的输入电压（例如12伏特）转换为处理器所需的电压。在CPU上，所需的电压通常是传统上的1.2至1.8伏特，而在GPU或大型FPGA、ASIC或AI加速器上，该电压范围为0.8至1.0伏特。

更高功率，更低效率

随着未来架构和工艺技术中用于供电SoC的电压降低，为了保持相同的功率，电流需要按电压降低的相同倍数增加。例如，让我们来看一个功率为240瓦的AMD Genoa CPU，其工作电压为1.2伏特。将输入从12伏特降至1.2伏特（降低10倍）以供给芯片，这意味着电流需要从12伏特时的20安培增加到1.2伏特时的200安培（增加10倍）以保持相同的功率水平。

相比之下，一个功率为700瓦的GPU的工作电压为0.8伏特。如果将输入从12伏特降至0.8伏特（降低15倍）以供给芯片，那么电流需要从12伏特时的60安培增加到0.8伏特时的875安培（增加15倍）。与功耗较低的CPU相比，GPU的电流要高得多。较高的电流意味着较高的电阻损耗，这可以从P = R * I^2的公式中得知（损耗等于电阻乘以电流的平方）。

随着电压降至0.8伏特，电阻急剧恶化：电流增加了15倍，导致电阻损耗呈指数级增加，达到225倍。这说明效率损耗在最近几代数据中心芯片中已成为一个重大问题。随着电压继续随着工艺缩小和封装变得更大，对高级封装需求更高，这个问题只会变得更严重。

48V的兴起

为了解决这个问题，人们开始使用更高的输入电压。很长一段时间以来，12伏特直流（DC）电源一直是电子产品电源单元（PSU）提供的标准电压。在过去，由于功率较低，12伏特工作得足够好，因此导致的效率损失微不足道。随着行业对功率较高、电压较低的SoC需求增加，效率受到双重打击。这些效率损失超过了相对廉价且普遍存在的12伏特元件所带来的好处。

从12伏特转换到48伏特意味着只需要4分之1的电流，因此损失将降低16倍（4^2）。这就是为什么许多公司开始转向48伏特电源传输网络的原因。但如果你最终要降到1伏特，这有什么意义呢？

将48伏特电压降至SoC电压的距离更近，所以导线长度更短。较长的导线长度会导致更大的电阻损耗。因此，只将48伏特输入电压降至尽可能接近负载点，其结果是总体电阻损耗更低。

谷歌是第一个在2016年左右在其数据中心采用48伏特电源的超大规模云服务提供商，并推动将48伏特电源在OpenCompute联盟中进行标准化。

Vicor的崛起

作为回应，芯片公司和原始设备制造商（OEM）在其主板上放置了48伏特输入的电压调节模块（VRM）。主要受益者是Vicor。虽然早前在电信设备中已有一个成熟的48伏特生态系统，但那是负电压，而数据中心需要正电压。Vicor是为计算用例提供48伏特VRM的主要供应商。

为了实现这种变化，电源单元将机架接收的380伏特交流电转换为48伏特直流电。随着数据中心在机架上提供48伏特电源，这也促使服务器主板开始采用48伏特输入，以便能够接受这个48伏特的输入电压并将其降压。或者，为了使传统的12伏特主板工作，还需要一个中间组件将48伏特降压为12伏特。基本上，要么需要48伏特的输出电压，要么需要48伏特的输入电压，而Vicor是首家进入市场的公司。

Vicor的 48V 系统

在2018年，Vicor首次在主流商用硅芯片上取得了胜利，其设计赢得了Nvidia的V100 SXM3刷新项目。该项目采用了Vicor的48伏特电压调节模块（VRM）组件。接着是A100，整个产品线都采用了Vicor的部件用于VRM。谷歌也在与V100类似的时间框架内采用了Vicor的产品用于TPU（张量处理单元）。这进一步巩固了Vicor在48伏特领域的主导地位，并表明Vicor是高性能电源传输的未来之路。

然而，随后Vicor在H100中被Monolithic Power Systems (MPS)替代，这打破了之前的局面，SemiAnalysis首先报道了这一消息。此独家报道导致Vicor的股价在发布后的第二天下跌超过20%，在接下来的一年里又下跌了30%，这主要是因为Nvidia对Vicor收入的巨大贡献。直至今日，Vicor仍未大量发货给Nvidia的H100项目，该项目正在大规模推进中。

上周，Vicor的首席执行官在声称其产品重新进入客户的基础平台的同时，还对竞争对手提起诉讼，导致了一次巨大的空头挤压。需要明确的是，首席执行官在一年多前向分析员表示他们会重新进入客户基础平台，但至今订单仍未到来。

来源：半导体行业观察

AI芯片供电竞争白热化

本帖子中包含更多资源