近日,超节点再度成为市场焦点。
消息面上,操作系统大会2025日前在北京中关村成功召开。大会由开放原子开源欧拉(OpenAtom openEuler,简称“开源欧拉”或“openEuler”)社区,协同数十家产业伙伴共同举办。会上,开放原子开源欧拉委员会主席熊伟发布openEuler全球首个面向超节点的操作系统openEuler24.03LTSSP3。
据熊伟其介绍,openEuler全球首个超节点的操作系统对openEuler异构融合系统升级,可加速释放超节点异构算力。此外,他在主题演讲中提到,openEuler开启新的5年发展之路,坚定拥抱超节点,坚定拥抱AI,加速全球化进程。
那么,听起来非常“高大上”的超节点,到底是什么呢?
随着大模型参数规模从千亿迈向万亿,训练它们所需的算力集群也从“千卡”规模扩展到“万卡”甚至“十万卡”。在这种超大规模下,传统的集群架构遇到了严峻的挑战,即“通信墙”。
在传统架构中,芯片之间通过以太网进行通信,速度较慢。在训练过程中,一个芯片完成计算后,需要花大量时间等待将数据同步给其他芯片,这导致集群中约40%的计算资源处于闲置状态。超节点的出现,就是为了拆掉这堵“墙”。
目前,行业主要有两种构建大规模GPU(图形处理器)集群的方式:Scale-Out(横向扩展)和Scale-Up(纵向扩展)。其中,Scale-Out是传统办法,简单来说就是把多台独立的服务器用网线连起来,组成拥有上百台,乃至上千台机器的集群。
Scale-Up则是增加单个节点内的资源数量。节点指系统中一个独立的计算单元。在AI训练中,一块GPU或一整台训练服务器都可以称为一个节点。
超节点就是把几十张乃至上百张卡放进一台大机柜,用内部的“高速路”连接起来,让它们像一块超级芯片一样工作。
因此,各家厂商在发布超节点产品时所标注的数字,如“384”“640”“512”等,通常指该超节点单机柜或单系统内集成的AI训练芯片(如GPU、NPU等)数量。
目前,华为已经开放灵衢互联协议2.0,支持产业界伙伴打造基于灵衢的超节点,还将向开源欧拉社区贡献支持超节点的操作系统插件代码,提供“内存统一编址”、“异构算力低时延通信”和“全局资源池化”等关键能力。
更有业内人士将超节点比作大模型的“光刻机”。从重要性看,大模型的训练和推理离不开高算力、高性能的超节点基础设施,正如先进制程离不开高性能光刻机。
东北证券指出,2023 年开始,AI 训练与推理需求逐步放量,驱动国内云厂商进入新一轮资本开支上行周期。BAT(百度、阿里、腾讯) 等头部企业的算力基础设施投资显著提速,资本开支强度连续两年提升。
预计中国互联网C5(阿里巴巴、字节跳动、腾讯、美团及百度)AI基础设施资本开支将从1688亿元增长至1.92万亿元。超节点作为高密度算力部署的核心基础设施,其在C5资本开支中的占比将随时间快速提升,假设该占比从2025年的10%上升至2030年的约80%,对应的超节点需求空间将从2025年的253亿元增至2030年的1.54万亿元。
这里证券之星为大家整理了部分超节点概念股,需要注意的是,相关概念股仅供投资者参考,不构成任何投资建议。
1、拓维信息:华为昇腾最大硬件合作伙伴,AI服务器市占率超60%,深度参与昇腾超节点部署,产品覆盖多地省级超节点
2、神州数码:昇腾核心生态伙伴、全球总经销,深度绑定华为昇腾供应链,也是昇腾超节点系统集成商与落地服务商
3、华工科技:公司供应昇腾超节点400G/800G光模块,是华为光模块核心供应商之一
4、紫光股份:公司旗下新华三是阿里云磐久128超节点的唯一代工厂,承担整机组装与系统集成任务
5、恒为科技:公司是昇腾超节点智能运维系统开发商,中标中国移动3亿元AI算力调度项目
6、高澜股份:公司浸没式液冷市占率60%,为昇腾384超节点提供全液冷解决方案










