(以下内容从海通国际《中国电子:MDC 2025:全功能GPU路线清晰,MUSA生态进入规模化验证阶段》研报附件原文摘录)
事件
2025年12月20–21日,摩尔线程在北京举办首届MUSA开发者大会(MDC2025)。大会围绕自主计算与开发者生态展开,集中发布新一代全功能GPU架构花港、万卡级智算集群夸娥、推理与图形领域的关键性能突破,并系统展示了以MUSA为核心的软件栈成熟度与生态建设进展。
点评
MUSA5.0已形成从指令集、编程模型、编译器到通信库的全栈体系,并在多个关键指标上实现接近国际主流水平的工程化表现:1)开发体验:原生MUSAC,同时兼容TileLang、Triton,降低CUDA迁移门槛;2)性能指标:muDNN中GEMM/FlashAttention效率>98%,通信效率~97%,编译器性能提升约3倍;3)生态策略:明确逐步开源计算库、通信库、系统管理框架等核心组件;4)前沿扩展:MTX中间语言、muLang、MUSA-Q、muLitho等,覆盖渲染、量子与计算光刻。
花港架构是此次大会的技术核心。公司发布新一代全功能GPU架构花港,在算力密度、能效、精度覆盖与互联能力上全面升级,支持FP4–FP64全精度计算,并引入混合低精度(MTFP6/MTFP4)。在架构层面,花港强调异步编程模型与超大规模互联(MTLink),为万卡乃至十万卡集群提供扩展基础。在此基础上,公司给出了清晰的产品分化路径:
华山:面向AI训推一体与超大规模智算,定位下一代AI工厂底座;
庐山:专注高性能图形渲染,几何、AI、光追等指标实现数量级提升,全面对标3A游戏与专业图形创作需求。
在国产GPU厂商中,摩尔线程是少数坚定走“全功能GPU”而非“单一AI加速器”路线的公司。“花港—华山—庐山”的技术路径显示,公司并未在AI浪潮中放弃图形与通用计算,这在长期生态与开发者黏性上具备更高上限,但同时也意味着更高的研发与工程复杂度。
夸娥万卡智算集群是对外展示工程能力的重要里程碑。集群在Dense模型与MoE模型上分别实现约60%与40%的MFU,线性扩展效率约95%,有效训练时间占比超过90%。在训练侧,完整复现FP8训练流程;在推理侧,与硅基流动合作,在DeepSeekR1671B模型上实现单卡Prefill>4000tokens/s、Decode>1000tokens/s。同时,公司公布了MTTC256超节点的前瞻规划,强调计算+交换一体化的高密架构,为下一代超大规模智算中心做准备。
具身智能全栈赋能,打造仿真—训练—部署一体化平台。在本次大会上,摩尔线程正式发布MTLambda具身智能仿真训练平台,以MUSA统一架构为底座,深度融合物理引擎、图形渲染引擎与AI计算引擎,构建覆盖开发、仿真与训练的全栈式技术体系。该平台通过高精度物理仿真与真实感渲染环境,加速具身智能模型在复杂真实世界场景中的学习与泛化能力,并与摩尔线程GPU算力、端云协同方案形成联动,为机器人、自动化与智能体等应用提供高效、可扩展的训练基础设施,体现公司在融合计算方向上的前瞻布局。
风险:1)AI技术发展不及预期;2)上游供应短缺;3)AI数据中心建造放缓
