(原标题:专家访谈汇总:DeepSeek是“算力屠夫”?)
总体而言,我们认为DeepseekV3/R1的成功对于整体AI的发展仍然有常积极的意义,同时对于算层也不是种断崖式的负影响,展开而言:
1. 算力层面:23-24年全球算叙事依赖的主要逻辑是在大模型发展初期,scalinglaw的适用,使得巨头在算段进冗余式投资提升基座模型能的逻辑得以延申,这种产业逻辑在24年底由o1提出新的RL范式,让scalinglaw的适用面从预训练转向后训练。
Deepseek的出现对于RL的ScalingLaw并不盾。只是从个总体(微软,Google,Meta等)而言,是否需要继续堆彻算去探索模型的边界,还是算力去优化模型本身,以降低后续推理的成本,不同的企业会有不同的倾向,那么26年以后算资本开的重点(预训练,后训练以及推理)的不确定性是定程度提升的。
一方面,OpenAI或者Google这类型企业,仍然会在基座模型的提升,以及类似新药开发这样对于数据需求接近于限的领域投最规格的硬件进算的攀升,另一方面,类似于Meta以及国内这样更侧重于商业化变现的企业,应该会更多把精放在模型的优化以及推理层的算法优化。
算力的使用方式更为多元化,所以更侧重于强训练逻辑的NV链条中期确定性下降,推理逻辑的相关公司确定性依然较。
2. 端侧:R1可以蒸馏的特性,疑提了未来7b左右参数模型的可能性,这对于本地化部署的AI机是明确的利好。原本预期在26年会较成熟的机应,很可能在25年下半年就会有更快的落地。
对于苹果这样在模型起步相对晚但是由完善户基础的公司也意味着可以更快和更低的成本部署自己的可的模型,对于国内安卓体系的公司,也无需因为地缘因素受限于Google的本土化进展,完全可以同步开发自己的端侧模型。
中美端侧户的体验在25年下半年以后概率是对齐的。AI机的渗透速度很有可能会由更为陡峭的斜率。
自动驾驶方面,deepseek优化成本的思路实际上已经在理想等完全端对端路线的自动驾驶版本中得以体现,后续小米以及小鹏都会采用类似的式进端对端动驾驶开发,同样的,25年下半年到26年初,国内有望推出接近于teslaFSDV12版本体验的动驾驶软件版本,并且训练成本会显著低于早期tesla的案。
那么很可能26年就是国内消费者真正意义上把动驾驶性能作为购车核心考虑的元年。在端对端侧由领先优势的整车企业有望重估。 3. 应用:国内Agents类应落地加速是大概率事件,但是从商业化前景来看,国内的付费态和美国比有显著差距。大企业态缺乏salesforce类AI模块付费的基础,国内主流ERP软件开发的AI功能带来的增量收并不显性。
所以在2025年,围绕字节,阿等互联网生态进行大模型商业开发的实施性企业边际投资机会会更高。但是从最终收和利润的兑现来看,更看好受益于整体AI应用落地的云服务企业(围绕自动驾驶以及后续机类端侧AI落地的需求)
4. 组合后续思路:2025年总体看算的配置不会有2024年那样核心的位置,但是因为A股算标的仍然有相当部分在业绩确定性上有很好的胜率,组合仍然会选择其中部分去赚业绩兑现的收益,同时在未来,会进步增加端侧(机和动驾驶),以及应相关的标的(云和服务落地)的配置。
但考虑到市场短期预期会趋于致,从交易周期上倾向于两个季度左右时间完成结构的优化。相较于市场关注度过的软件公司,些被低估估值相对便宜的消费电标的也是管理后续增加配置的向。
2、《DeepSeek 影响几何?》摘要
DeepSeek R1通过开源、高性能和低成本API对标OpenAI的o1模型,提供了一个更具竞争力的解决方案,特别是在数学推理(97.3% MATH-500 pass@1)、代码生成(96.3% Codeforces)等任务上表现卓越。
这使得企业可以低成本调用AI服务,降低技术门槛,特别是在消费电子、智能驾驶等领域的终端AI应用中,具有极大潜力。
通过蒸馏生成的轻量化模型,R1能够适应边缘设备算力,支持实时决策,适用于自动驾驶、手机端语音助手等场景。
DeepSeek的MIT开源协议提供了商用模型蒸馏的可能,允许开发者进行二次创新,推动中国在大模型开源领域占据技术制高点,增强全球AI话语权。
R1的发布不仅为中国AI技术带来全球竞争力,还可能加速AI的商业化落地,推动垂直领域应用创新。
投资者应关注DeepSeek的开源战略和低成本API对市场的长期影响,尤其是其如何推动AI技术从云端向终端渗透。
随着成本的降低,更多企业可能进入AI领域,提升整体行业的技术水平,创造更多投资机会。
Janus-Pro通过解耦架构设计,在仅使用128颗A100 GPU训练1周的条件下,超越了DALL-E 3等主流多模态模型,证明了算法创新可以显著降低算力需求。
Janus-Pro使用了新的视觉编码路径和统一自回归Transformer,突破了传统多模态模型的局限,在生成和理解两方面均有卓越表现(如在GenEval和MMBench基准测试中超越了DALL-E 3)。
Janus-Pro的训练效率远超同类主流模型,表明大模型不再必须依赖庞大的算力资源,技术创新可以成为提升算力效率的关键。
中小企业可以利用该技术在电商、教育等领域快速部署AI解决方案,推动行业应用的落地。
3、《DeepSeek对模型、算力、应用的启示》摘要
DeepSeek-R1在数学推理、编程能力及复杂问题解决领域表现出色,几乎与OpenAI o1持平,体现了强大的推理能力。
具体而言,R1的输入和输出费用分别为OpenAI的1/7至1/3,极大地降低了企业部署成本。
这不仅降低了技术壁垒,还可能推动全球AI技术的快速发展,特别是在中国的AI产业链中,增强了其全球竞争力。
DeepSeek-R1采用创新的两阶段强化学习(Zero+强化学习),通过极少的标注数据和大规模强化学习,成功提升推理能力并显著降低计算成本。
此创新有望开启全新的Scaling Law(算力扩展法则),为AI行业带来更高的效率和更低的成本。
通过采用低精度数据(FP8)训练、硬盘缓存等创新技术,DeepSeek实现了算力的有效压缩,为全球AI大模型提供了新的降本路径。
与历史上的工业革命、摩尔定律类似,AI算力的降低预计将激发更多的行业应用需求,尤其是推动推理端的算力需求增长。
4、《DeepSeek的A股叙事》摘要
DeepSeek作为新兴产业催化剂,尤其是在AI端侧和应用领域的技术突破,可能带动TMT(科技、媒体、通信)板块的反弹。
回顾过去的科技产业发展轨迹(如智能手机到移动互联网),可以预见AI将推动整个科技产业链,从硬件到应用都将受益。
随着资金配置的变化,基金报告显示硬件(AI芯片/SOC)持仓比重较大,而软件和应用(计算机/传媒)则处于历史低点。
未来,随着AI领域的创新和DeepSeek的示范效应,可能会带动业绩增速差的扩展,进而引发科技成长风格的回升。
DeepSeek的低成本训练模式有可能在中期内加速AI应用的普及,推动硬件端与应用端的持续发展。
随着DeepSeek等国产AI技术的崛起,A股TMT板块可能会吸引更多全球资本的关注,推动市值进一步扩张。
5、《 DeepSeek十问十答》摘要
尽管探索性算力(AGI)在快速增长,但目前AI算力增长范式未发生变化,主要资本仍集中在前沿探索,如Meta和OpenAI的大规模基础设施投资。
未来大模型公司间的竞争可能更多聚焦于“算法效率”,投资重点可能从算力硬件转向算法优化。
DeepSeek的低成本训练表明,低端GPU如A100、H800也能实现类似性能,可能会影响英伟达高端GPU的市场份额,尤其是在云计算和主权AI领域。
尽管DeepSeek在GPU训练成本上有显著优势,但不包括研发、数据收集等其他重要成本,整体投入仍然较大。
DeepSeek在解决复杂推理问题上表现出色,尤其在数学、编程等任务上速度是ChatGPT的两倍。
DeepSeek的成功可能提高投资者对中国AI公司产业链的预期,吸引更多资本流入中国AI领域,可能导致恒生科技指数的估值提高。
微软的DeepSeek-R1模型已应用于智能手机、汽车等设备,带来更高效的本地化部署方案。
美国可能会加强对中国的AI出口管制,包括限制高端芯片、开源模型、算力资源和数据集的获取。
开源模型将加速AI技术普及,并推动更多AI公司重新思考其商业模式,可能进一步推动AI技术向更广泛的领域渗透。