中金:模型+工程创新持续唤醒算力 DeepSeek撬动推理需求蓝海

来源:智通财经 2025-02-28 09:17:34
关注证券之星官方微博:

(原标题:中金:模型+工程创新持续唤醒算力 DeepSeek撬动推理需求蓝海)

智通财经APP获悉,中金发布研究报告称,除了训练以外,DS团队在最新一系列的开源成果发布中针对推理任务也做出了双重维度的创新:一方面通过模型优化降低硬件资源占用,另一方面通过硬件工程化优化以发挥硬件最大效能。集群推理成为主流利好以太网通信设备需求;市场拥有高水平的开源模型后,云端/私域部署需求快速增长。除海外产品外,国产算力链以其快速的适配也迎来了商业机会。

中金主要观点如下:

模型创新:借助MLA、NSA等技术优化加速推理

在上一篇聚焦训练任务的报告中,该行重点解读了DS大语言模型中前馈网络(FFN)架构部分由稠密演化到稀疏(MoE,专家模型)产生的影响,同时,DS在注意力机制(Attention)部分也做出了创新。针对传统Attention部分需要计算所有词对之间关联的特性,在处理文本变成长时,计算量和内存消耗会呈现大幅增长。

该行认为DeepSeek独创的多重潜在注意力机制(Multi-Latent-Attention,MLA)方法,通过将占用内存较大的KV矩阵投射到隐空间来解决KV cache占用过多的问题,类似“高度概括的全局视角”;而近期,DS团队又在最新发布的论文1中指出,可采用原生稀疏注意力(Native Sparse Attention, NSA)方法,从底层设计避免计算无关词对注意力,类似“关键信息的详细洞察”,直接对序列长度进行压缩,优化推理算力、存储开销。

硬件工程优化:DS团队采用PD分离+高专家并行度策略充分释放硬件性能

首先,针对推理过程中预填充(Prefill)和解码(Decode)两个对计算/存储资源要求的差异性较大的任务分别做了针对性的硬件优化配置;其次,为实现更好的计算单元利用效率并平衡通信开销,DS团队在Decode阶段采用了高达320的专家并行度(Expert Parallel)来布置推理硬件。DS团队也开源了MLA相关内核(Kernel),直接解密MLA结构在NV硬件上的具体实现,该行认为这给开发者优化适配其他硬件(如国产卡)提供了思路。

硬件需求启示

1)集群推理成为主流形式,利好以太网通信设备需求;2)DS团队为市场带来高水平的开源模型后,云端/私域部署需求快速增长,该行测算仅微信接入DS模型有望带来数十万主流推理卡的采购需求。结构上,除海外产品外,国产算力链以其快速的适配也迎来了商业机会。

风险

生成式AI模型创新、AI算力硬件技术迭代、AI应用落地进展不及预期。

微信
扫描二维码
关注
证券之星微信
APP下载
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备310104345710301240019号。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-