(以下内容从华安证券《战略科技(计算机)行业周报:详解大模型训练与推理对算力产业链的需求影响》研报附件原文摘录)
类chatGPT大模型带来的算力增长,毋庸置疑。但算力的需求,不止局限于模型的投资初期。随着GPTAPI的开放、下游应用多模态的成熟,对于的大模型的推理算力需求进一步提升。也即,在模型不断更迭训练中,算力需求提升;在模型应用推理中,算力需求进一步提升。由此,整个算力需求一如互联网时期的流量需求,持续爆发。
整个大模型的算力需求包括训练端与推理端。本文计算的不是金额,而是潜在的对于以英伟达GPU为代表的芯片需求。由此对应,产业链需求。
训练端算力需求,与模型参数、训练数据集规模正相关
在训练端,算力的需求=2×#ofconnections×3×#oftrainingexamples×#ofepochs。(资料来源:EstimatingTrainingComputeofDeepLearningModels(epochai.org))其中:
#ofconnections,是指神经网络中,相互依赖的神经元数量。举例在一个完全链接的神经网络中,N层输入与M层输出,则#ofconnections=N*M。通常parameters可以近似于#ofconnections。
#oftrainingexamples,数据集数量;
#ofepoch,是指训练数据集上的完全通过次数。
另一端,算力的供给=trainingtime×#ofGPUs/TPUs×peakFLOP/s×utilizationrate。Trainingtime计算时间;Utilizationrate使用效率。
在这个公式中,通常使用英伟达A100FP32的数据,也即19.5TFLOPS。Utiliazationrate通常使用效率,对于大模型而言,是0.3;对于其他模型为0.4。在极端理论数据下,utilizationrate=1。我们在报导中看到的数据,GPT3若使用V100需要训练355gpu年,就是建立在理论数据下,以V100理论算力28TFLOPS计算的(直接将FP32的理论算力14TFLOPS乘以2,以得到FP16的理论算力)。若使用RTX8000,假设15TFLOPS,将花费665GPU年(资料来源:OpenAI'sGPT-3LanguageModel:ATechnicalOverview(lambdalabs.com))。由此计算的GPT3的训练算力,整体达到3.14E23FLOPS。
若仍然以V100就算,若要将训练一次的周期降低至1周内,则需要2万片V100GPU。
由此公式可以看到,促进训练端算力需求增长的因素包括:
1)参数规模。也即随着GPT3向更多参数的GPT4、5等发展;
2)训练集规模。
3)投入大模型的企业增长。国内包括华为、百度、阿里巴巴、腾讯、字节等互联网巨头以及更多加入大模型研发的企业。未来的训练端算力需求,是上述三大因素的乘积。
推理端算力需求,与模型参数数量、平均序列长度、并发需求量正相关
而推理部分算力需求,根据GPT3的回复:
推理算力=模型大小*推演批次大小*平均序列长度*推演速度。
(注:理论数值,其中并发请求数量、模型架构、输入数据等,均可能为影响因素)其中,平均序列长度,随着GPT从简单文字交流,向多模态发展,对于推理算力需求大幅提升。(资料来源:来自GPT3回复)
于其对于响应速度,相比训练而言,要求高得多(通常用户能接受的响应时间,在几秒之内),因此所需要的并发GPU算力相应提升。
进一步,多模态之下,图片、视频生成需求的提升,在公式中将会增加平均序列长度。同时随着并发需求的增长,整个推理算力需求大幅提升。
逻辑推演之下,chatgpt应用进一步丰富,在推理端的算力需求持续提升,或将远远超过训练阶段的算力需求。由此来看,整个算力产业链将是chatgpt投资逻辑最顺的产业链条。
建议关注AI芯片(包括GPU、TPU、FPGA)相关标的:海光信息、寒武纪、景嘉微。
对应而言,单台服务器可插多张显卡,同时数据量的增长,对于数据存储也带来巨大寻求,服务器、存储因此受益。建议关注相关标的:浪潮信息、中科曙光、紫光股份、工业富联、联想集团、神州数码。
进一步,以A100功耗达到400w;单服务器插入8张A100计算。单服务器功耗达到3200w。由此对散热产生巨大需求。风冷、液冷技术,有助于帮助解决散热问题,建议关注:英维克(计算机、机械联合覆盖)、依米康、佳力图、网宿科技。
风险提示
1)疫情反复降低企业信息化支出;
2)财政与货币政策低于预期;
3)供应链波动加大,影响科技产业发展。
相关附件