(以下内容从开源证券《电子:Groq 3 LPU与GPU协同作战,系统架构如期升级》研报附件原文摘录)
Groq3LPU超预期:推理性能倍增,放量节奏提前
单芯片性能跃升:Groq3LPU集成500MB的SRAM,提供150TB/s带宽,是HBM(22TB/s)的近7倍,精准契合带宽敏感型AI解码需求。算力上,Rubin GPU为50petaFLOPS、4位运算,配288GB HBM;Groq3LPU为1.2petaFLOPS、8位运算,配500MB SRAM,后者以精简设计专精推理,后续将推出支持NVFP4的Groq L35以丰富产品矩阵。
LPX机架重磅发布:在NVIDIA的布局中,LPU并非要取代GPU,而是与GPU、Vera CPU等芯片协同作战,补全GPU的短板,释放整个AI工厂的算力潜力。英伟达将Groq3LPU整合为Groq3LPX机架,每个机架包含256个LPU,提供128GB SRAM及40PB/s推理带宽,芯片间通过640TB/s扩展接口互联。目前,英伟达正专注于实现LPU与Rubin的结合,与Vera Rubin结合后,推理吞吐量/功耗比提升35倍,有望重塑推理成本结构。从量产节奏来看,LPU芯片将由三星代工,量产提前至2026下半年,远超此前预期。
正交背板如期推出:系统级互联再上台阶
Rubin Ultra芯片规格大幅跃升:作为全场压轴产品,Rubin Ultra GPU配备高达1TB HBM4e内存,单封装FP4推理算力达到100PFLOPS。Rubin Ultra在内存容量和算力上实现翻倍式提升,为超大模型推理提供极致性能支撑。
全新Kyber机架架构革命,正交背板应用确认:Rubin Ultra搭载全新的Kyber机架,全柜合计144个GPU(共计576个die),采用颠覆性设计——计算节点垂直插入,前部为计算单元,后部为NVLink交换单元,以中枢直连架构取代传统铜缆。
从Rubin Ultra展示版本可以看到,Compute Tray上有4颗Rubin Ultra和2颗VeraCPU,其与Switch tray的连接通过正交背板完成,符合我们之前的预期,正常在GTC大会上展示。
投资建议:建议关注算力、互联、散热三大主线
Groq3LPU的提前放量及Rubin Ultra架构升级,将对AI服务器硬件产生深远影响。
PCB环节受益标的:沪电股份、胜宏科技、深南电路、景旺电子、鹏鼎控股等;
CCL环节受益标的:生益科技、南亚新材等;
组装环节受益标的:工业富联等。
风险提示:LPU进展不及预期;正交背板放量节奏不及预期等。
