电子行业专题研究：四问四答，剖析算力产业链价值潜力_股票频道

（以下内容从信达证券《电子行业专题研究：四问四答，剖析算力产业链价值潜力》研报附件原文摘录）
Q：GPT进化历程]有何启示？
A：我们认为GPT进化历程有力证明了“大数据+大参数”具有可行性。Transformer架构在2017年被提出，在捕获长序列语义特征方面的优势迅速让其成为了随后数年间NLP领域的领头羊。除了注意力机制被广泛使用外，基于Transformer架构decoder发展出GPT家族，基于encoder发展出BERT系列。为了充分利用未经标注的大量语料，OpenAI创造性地让模型在预训练之后便直接进行推理，这种方式在GPT-3上取得了成功。随后，OpenAI引入强化学习，避免GPT生成不合乎人类价值观甚至没有逻辑的答案。在GPT的迭代中，模型的规模越来越大，而性能也在显著提升。GPT-4在许多考试中都取得了八十分位的成绩，相当于一个优秀的人类学生。同时，在多模态方面的能力也为未来指明了方向。
“大参数+大数据”有何优越？演进路线未来是否持续？
A：关于大模型的好处：在论文《ScalingLawsforNeuralLanguageModels》中，研究者总结出模型的损失（Loss）与计算量、模型规模、参数规模三个变量强相关，并且在其他两个变量恒定下，Loss与该变量呈现幂级关系，这一结论可称为缩放定律（scalinglaws），缩放定律表明大模型“大有大的好处”。此外，大模型展现出良好的涌现能力。涌现能力可以理解为“顿悟”。在模型规模提升到某一临界点，模型准确度迅猛提升。目前对于涌现能力本身及其产生的具体原因尚有争议，但是涌现能力确实让大模型的商业化方向有了很大空间。关于“大数据+大参数”能否持续，主要关注两个限制，即语料和算力。第一个限制：语料可能会用光。据epochai的预测，高质量语言数据将在2026年前耗光，低质量语言数据将在2030-2050年耗光，图像数据将在2060年左右耗光。但是语料耗光并不意味着大模型会停止前进，目前许多模型对语料的训练并不充分。第二个限制：硬件提供的算力是有限的。由于硬件端的限制，许多大模型在“变大”方面受到限制。在固定算力的情况下，模型参数和训练数据需要较好配合才能使得模型性能发挥到最大。
Q：算力需求跑得多快？天花板在哪里？
A：训练阶段的算力需求方面，约9.9个月翻倍。OpenAI在论文《LanguageModelsareFew-ShotLearners》中公布了不同模型的计算次数，其中GPT-3计算次数大约3.14E+23次，GPT-3的计算次数大约等于“参数量（175B）*训练集规模（300Btokens）”的6倍。但这种关系并不一定完全成立，例如在BERT的模型中这一比例也接近6左右，但是在T5的模型中仅为3左右。JaimeSevilla、LennartHeim等研究者在《COMPUTETRENDSACROSSTHREEERASOFMACHINELEARNIN》中，将数据集以对数线性回归方式进行研究，根据结果将机器学习训练算力分为3个时代：前深度学习时代（1952-2010）：平均每21.3个月翻一倍。深度学习时代（2010-2022）：平均每5.7个月翻一倍。大模型时代（2015-2022）：平均9.9个月翻一倍。
但我们认为这一测算倾向于低估算力需求的成长速度。《COMPUTETRENDSACROSSTHREEERASOFMACHINELEARNIN》发布时间在2022年中，彼时GPT-3相对于BERT而言并无显著优势。ChatGPT发布时间在2022年底，并且在终端用户中取得了良好的反响，我们认为这至少是一次中等规模的产业革命。在此催化下，大模型路线的可行性已被验证，算力翻倍的时间或将显著缩短，低于9.9个月。
推理阶段的算力需求方面，模型本身参数量及接入人数是两个显著变量。从模型参数来看，初代GPT到GPT-2、GPT-2到GPT-3的模型参数量分别增加15、100倍左右，GPT4的参数量并未公开，但由于GPT-3参数量已经达到1750亿，我们认为从GPT-2到GPT-3这样两个数量级的增长已很难复刻，但仍可以推测参数量仍在快速增长。从接入用户看，OpenAI的访问次数迅猛提升。据similarweb数据，三月OpenAI访问次数为1.64B次，5月约为1.86B次。尽管增势在不断放缓，但我们也需考虑到两方面因素：第一，时间纵向上看，GPT-4并不是完美的，模型本身也在不断成长；第二，地区横向上看，持续不断的大模型正在推出。
大模型数量方面，不断有新的大模型在推出，且随着投资的增加，模型训练时间有望不断缩减。越来越多的大模型正在不断推出，这些模型除了越来越大以外，模型的推出节点也在变得密集。从WayneXinZhao等人的统计结果来看，大模型的参数量、预训练数据规模不断增长。参数方面，2023年华为推出的盘古-Σ达到1085B（1万亿），而数据量方面也达到了329Btokens。研究机构epochai对训练模型所需的时间进行了测算，考虑了三个变量，分别为硬件改善、算法改善和资本增加，发现在三个因素共振的情况下，训练模型的最佳时间区间从3.55年缩短至2.52个月。我们认为，在ChatGPT取得成功以来，各国各大厂已足够重视大模型的发展，在上述三个变量中，硬件性能提升主要取决于相关大厂的产品迭代，而算法和预算均有望靠人力投入和资本开支在短期内快速提升，大模型训练的时间有望显著缩短，下一个ChatGPT级的应用或已不远。
Q：瞭望未来，受益环节几何？
A：云厂商数据中心是大模型算力的承载者。由于大模型的训练往往需要大规模的AI服务器进行运算，这导致提供算力的门槛大幅提高，因此训练和运行大模型的任务最终落在大型云服务提供商的数据中心上。例如，ChatGPT的算力提供商为微软，我们认为这种合作模式将会持续。
在数据中心中，服务器是最主要成员，建设成本占比约69%,而CPU/GPU是服务器核心组件。在数据中心建设成本中，服务器是最主要的成本构成，占比69%。此外，存储、网络、安全设备、光模块等分别占比6%、11%、9%、5%左右。服务器相当于一台高性能的PC，而AI服务器专为大模型超大的算力需求设计，通常采用异构模式，组成硬件包括CPU、GPU、硬盘、内存等等，其中CPU和GPU是核心硬件，占据成本的绝大部分。
我们持续看好算力产业链，建议关注：海外算力产业链：工业富联、沪电股份等；国产算力产业链：寒武纪、海光信息、兴森科技、芯原股份、深南电路等；存储芯片：兆易创新、北京君正、东芯股份、普冉股份等。
风险因素：宏观经济下行风险；AI发展不及预期风险；地缘政治波动风险。