首页 - 股票 - 研报 - 行业研究 - 正文

计算机行业:国产开源MoE模型DeepSeek-V2性能媲美GPT-4,大模型价格战拉开帷幕

来源:中国银河 作者:吴砚靖,胡天昊 2024-05-13 12:26:00
关注证券之星官方微博:
(以下内容从中国银河《计算机行业:国产开源MoE模型DeepSeek-V2性能媲美GPT-4,大模型价格战拉开帷幕》研报附件原文摘录)
事件:5月7日,知名私募巨头幻方量化旗下的AI公司DeepSeek发布全新第二代MoE大模型DeepSeek-V2。
性能直逼GPT-4Turbo,综合能力位于大模型第一梯队。DeepSeek-V2是一个参数为2360亿的MoE模型,每个token仅激活210亿参数,支持128K的上下文长度。1)纵向对比:对比去年11月发布的DeepSeek67B性能取得显著提升,训练成本节省了42.5%,KV缓存减少了93.3%,最大生成吞吐量提高到了5.76倍。2)横向对比:上下文长度对标GPT-4Turbo(128K);中文综合能力(AlignBench)超越Llama3,在开源模型中表现最强,与文心4.0等闭源模型在评测中处于同一梯队,仅次于GPT-4Turbo;英文综合能力(MT-Bench)与最强的开源模型LLaMA3-70B处于同一梯队,超过MoE开源模型Mixtral8x22B。此外在知识、数学、推理、代码等方面也有出色的性能。
DeepSeek-V2训练计算量降低,推理能力表现高效。DeepSeek-V2训练数据集是由8.1T token的高质量、多源预训练语料库组成,采用的Transformer架构中由一个注意力模块和一个前馈网络(FFN)组成,并且在注意力机制和FFN方面采用了创新架构:一方面设计了MLA(Multi-head Latent Attention),利用低秩键值联合压缩来消除推理时键值缓存的瓶颈,DeepSeek-V2消耗的显存(KV Cache)只有同级别Dense模型的1/5-1/100,每token成本大幅降低;另一方面,FFN采用高性能MoE架构DeepSeekMoE,以经济的成本训练强大的模型。我们认为,DeepSeek-V2大幅提升训练效率,训练所需计算量约为GPT-4的1/20,但性能基本上相差无几,目前来看参数是影响大模型性能的关键因素之一,除此之外,架构优化能有效提升降低训练成本,提升训练效率,将成为另一个影响大模型性能的关键因素。
API价格降至约GPT-4 Turbo百分之一,大模型价格战即将拉开帷幕,利好AI应用层快速渗透。目前DeepSeek-V2API定价为每百万token输入1元、输出2元(32K上下文),几乎低于所有市面上主流大模型价格,约为GPT-4 Turbo的1/100。我们认为,DeepSeek-V2提升数据集质量及优化架构,成本大幅降低,在价格方面提升竞争力,大模型将逐渐进入价格战时期,AI应用将快速渗透。
投资建议:国产大模型迭代加速,训练成本降低,进一步加速应用端落地,而应用端推广又将进一步催生算力新需求。建议重点关注:1、国产算力:海光信息、中科曙光、神州数码、曙光数创、润泽科技;2、大模型及多模态:科大讯飞、昆仑万维(传媒覆盖)、万兴科技、拓尔思、海康威视、大华股份、商汤-W(0020.HK);3、AI医疗:嘉和美康、卫宁健康;4、AI办公:金山办公、彩讯股份;5、AI教育:科大讯飞、欧玛软件、拓维信息;6、AI法律:通达海、金桥信息、华宇软件;7、AI金融:恒生电子、财富趋势、同花顺;8、AI能源:国网信通、国能日新等。
风险提示:技术研发进度不及预期风险;供应链风险;政策推进不及预期风险;消费需求不及预期风险;行业竞争加剧风险。





微信
扫描二维码
关注
证券之星微信
APP下载
好投资评级:
好价格评级:
证券之星估值分析提示神州数码盈利能力一般,未来营收成长性良好。综合基本面各维度看,股价合理。 更多>>
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-