(以下内容从华安证券《电子行业专题:AI服务器BOM表解密》研报附件原文摘录)
AI服务器与传统服务器相比结构类似, 但子系统价值量变化都很大
AI服务器和传统通用服务器在设计方案上主要区别在于对高性能计算资源、 内存和存储、 网络连接(PCB)、电源管理等。 AI服务器为应对AI工作负载需求, 对资源进行了优化
计算资源方面:
总体而言: AI服务器通常具有更强的计算能力,不仅包括高性能的CPU(通用服务器及AI服务器均以配置INTEL 5318为例) ,还包括一个或多个高性能GPU以处理大量并行计算,从而强化深度学习和机器学习任务上的优势。尤其GPU自身数目的提高(如从两张升级到八张),或升级到H800等,都会使得计算能力进一步强化(同时在BOM表的占比也会持续提高)
通用服务器: 假设双路服务器(一台服务器中含两个CPU)。 由于无需含GPU,其CPU可能占BOM的近30%
AI服务器: 分为训练服务器和推理服务器:
训练服务器: 由于CPU数量与型号不变, CPU的占比从近30%下降到10%以下; AI芯片方面,假设使用A800,相对应的增加的GPU,会占成本的50%以上,如果后续升级,不管是使用更多张A800(从两张到8张),或者升级到H800, GPU在BOM表的占比会更高。以8张A800为例,单机价值量高达76万, 占比80%以上
推理服务器: 以搭载GPU为T4卡(单价3500$) ,单机挂4个GPU为例, 单机价值量近10万, 成本占比约42%AI服务器和传统通用服务器在设计方案上主要区别在于对高性能计算资源、 内存和存储、 网络连接(PCB) 等。 AI服务器为应对AI工作负载需求, 对资源进行了优化
存储资源方面:
普通服务器: 12根内存条,单价150美金,对应价值量12420元。 SSD需要5-10块,单块500美金,对应约2.4万元。存储整体占比56%左右
训练服务器方面,使用32G的内存, 满插24根内存条, 价值量约24800元,占比约3%; SSD 500美金/块,需要20块,对应价值量69000元,占比7.6%。存储整体占比下降到10%左右,但价值量提高1.5倍,主要原因是GPU价值量提高幅度大导致占比被动下滑。推理服务器存储用量与训练服务器差别不大
服务器中使用RAID卡的主要原因是为了提高数据的可靠性和存储性能。通过使用RAID卡对磁盘阵列进行管理,服务器可以更有效地存储和访问数据,同时在硬盘出现故障时保护关键数据。 RAID卡的渗透率在通用服务器的渗透率约30%, 而AI服务器渗透率可能是80%,甚至是标配,带来价值量提升
AI服务器和传统通用服务器在设计方案上主要区别在于对高性能计算资源、 内存和存储、 网络连接(PCB) 等。 AI服务器为应对AI工作负载需求, 对资源进行了优化
网络连接方面:
网卡: 假设低配为主,通用服务器使用1张双口万兆网卡, 870元,对应占服务器价值量1.3%(若25G则均价可上升为1360元); AI服务器以两张双口万兆网卡,对应总价1740元拉平计算,占训练服务器比例不足1%。 实际随着客户提出200G网卡需求,乃至8块DPU配套8张A800制程大模型的需求,会使得网卡价值量有较大提升空间
PCB: 通用服务器PCB 8-10层M6板为主,价值量约3400元,占比5%; 训练服务器PCB 18-20层M8板为主,价值量约10350元;推理型服务器PCB 14-16层M6,价值量约7140元;整体增幅明显。 由于以下需求, PCB层数及型号都持续上升
复杂性:高性能服务器通常具有更复杂的设计,需要处理更多的信号和电源路径多层板有利于路径布局
信号完整性: 高层PCB板可以提供更多的屏蔽层,减少信号干扰和反射, 在高速数据传输中提高信息传递质量
电源管理及散热: 高层PCB板提供更多的电源平面和散热通道,更好实现电源分布和管理,并将热量传输到散热器
电磁兼容性: 多层PCB可以更好地控制电磁干扰和射频噪声,从而提高设备的EMC性能
相关附件