DeepSeek，突传大消息！_股票频道

（原标题：DeepSeek，突传大消息！）

热度居高不下！

最近几天，DeepSeek从惊艳到惊吓，从被认可到被质疑，再从被威胁到些许的认可，事情处于不断的演化当中。今天早上，这款大模型再度迎来大消息。

微软CEO纳德拉在电话会上强调，DeepSeek R1模型目前已可通过微软的AI平台Azure AI Foundry和GitHub获取，并且很快就能在Copilot+电脑上运行。纳德拉称，DeepSeek“有一些真的创新”，AI成本下降是趋势：缩放定律（Scaling Law）在预训练和推理时间计算中不断积累。

另外，据@Jukanlosreve引用的Mirae Asset Securities Korea分析称，DeepSeek的突破是通过实施大量细粒度优化，以及在某些功能中使用Nvidia的汇编式PTX（并行线程执行）编程而不是Nvidia的CUDA来实现的。这是否是昨晚英伟达股价再度杀跌的主因，还有待考证。不过，“算力通缩”似乎正在成为流行词汇。有消息指出，美国商务部正在讨论禁售英伟达H20，这或许也是该股杀跌的原因之一。

巨头最新发声

微软官网最新显示，DeepSeek R1现已在Azure AI Foundry和GitHub上的模型目录中提供，加入了1800多个模型的多样化产品组合，包括前沿、开源、行业特定和基于任务的AI模型。作为Azure AI Foundry的一部分，DeepSeek R1可在值得信赖、可扩展且企业级就绪的平台上访问，使企业能够无缝集成高级AI，同时满足SLA、安全性和负责任的AI承诺——所有这些都由Microsoft的可靠性和创新支持。

微软CEO纳德拉也在电话会上强调，DeepSeek R1模型目前已可通过微软的AI平台Azure AI Foundry和GitHub获取，并且很快就能在Copilot+电脑上运行。纳德拉称DeepSeek“有一些真的创新”，AI成本下降是趋势：“缩放定律（Scaling Law）在预训练和推理时间计算中不断积累。多年来，我们已经看到了AI训练和推理方面的效率显著提高。在推理方面，我们通常看到每一代硬件的性价比提高2倍以上，每一代模型的性价比提高10倍以上。”

Meta首席执行官马克·扎克伯格周三在公司第四季度财报电话会议上向投资者传达信息。在与华尔街分析师的电话会议问答环节，扎克伯格回答了多个问题，这些问题涉及DeepSeek令人印象深刻的AI模型以及对Meta的AI战略的影响。他说，DeepSeek能够以相对较少的资金取得成就“只会加强我们的信念，即这是值得关注的正确事情”。

扎克伯格指出，“他们做的很多新奇事我们仍在消化”，Meta计划将DeepSeek的进步应用到Llama中。DeepSeek导致人工智能股票大幅抛售，因为人们担心模型不再需要那么多计算能力。扎克伯格试图打消人们对他在GPU上花费的数十亿美元将白费的担忧：“我仍然认为，从长远来看，在资本支出和基础设施方面投入大量资金将是一种战略优势。”

他还对OpenAI、Anthropic和其他尚未盈利的初创公司进行了不加掩饰的批评，指出Meta拥有“强大的商业模式”来支持其今年在人工智能方面投入的约600亿美元，而“其他公司不一定拥有可持续的商业模式来支持它”。

关于蒸馏技术

最近两天，市场对DeepSeek的质疑之声也多了起来，其中讨论得最多的可能就是利用蒸馏技术训练模型的事。OpenAI也表示，正在审查DeepSeek使用一种称为“蒸馏”的技术，从OpenAI的工具中提取大量数据以帮助开发其技术的迹象。

然而，据最新消息，市场对此分歧也很大。处于被动地位的美国政府和OpenAI的反应应该是在预期之内的。但总部位于旧金山的Databricks的人工智能副总裁Naveen Rao表示，在人工智能行业，向竞争对手学习是“理所当然的事”。当服务条款禁止时，该公司不会使用这种技术。

Rao将此比作汽车制造商购买并检查彼此的发动机。“公平地说，这种情况在每种情况下都会发生。竞争是真实存在的，当它是可提取的信息时，你会提取它并试图获得胜利。”拉奥说。“我们都试图成为好公民，但我们同时都在竞争。”

Thomvest Ventures董事总经理Umesh Padval表示：“当你拥有Mistral和Llama等开源模型时，模型提炼是不可能停止的。它们可供所有人使用。他们还可以通过客户在某个地方找到OpenAI的模型。”

DeepSeek在最近的一篇研究论文中表示，它使用“蒸馏”技术从其最强大的模型R1中获取输出，以训练表现出类似推理能力的较小模型。

冲击英伟达护城河？

目前，市场上还有一种说法：DeepSeek甚至绕过了CUDA，并因此冲击到了英伟达的护城河。

据外媒——硬件媒体Tom‘s Hardware报道，来自Mirae Asset Securities Research（韩国未来资产证券）的分析称，V3的硬件效率之所以能比Meta等高出10倍，可以总结为“他们从头开始重建了一切”。在使用英伟达的H800 GPU训练DeepSeek-V3时，他们针对自己的需求把132个流式多处理器（SMs）中的20个修改成负责服务器间的通信，而不是计算任务。变相绕过了硬件对通信速度的限制。

这一突破是通过实施大量细粒度优化以及在某些功能中使用Nvidia的汇编式PTX（并行线程执行）编程而不是Nvidia的CUDA来实现的。Nvidia的PTX（并行线程执行）是Nvidia为其GPU设计的中间指令集架构。PTX位于高级GPU编程语言（如CUDA C/C++或其他语言前端）和低级机器代码（流式汇编或SASS）之间。PTX是一种接近金属的ISA，它将GPU公开为数据并行计算设备，因此允许细粒度优化，例如寄存器分配和线程/warp级别调整，这是CUDA C/C++和其他语言无法实现的。一旦PTX进入SASS，它就会针对特定一代的Nvidia GPU进行优化。

这些修改远远超出了标准CUDA级开发的范围，但维护起来却非常困难。因此，这种级别的优化反映了DeepSeek工程师的卓越技能。全球GPU短缺，加上美国的限制，迫使DeepSeek等公司采用创新解决方案，DeepSeek也取得了突破。不过，分析认为，DeepSeek做了PTX级别的优化不意味着完全脱离了CUDA生态，但确实代表他们有优化其他GPU的能力。

责编：罗晓霞

校对：杨舒欣

证券之星微信

扫描二维码

关注

证券之星微信

精彩推荐

内容精选