(以下内容从华福证券《算力专题研究二:从训练到推理:算力芯片需求的华丽转身》研报附件原文摘录)
投资要点:
推理算力:算力芯片行业的第二重驱动力
我们在此前外发报告《如何测算文本大模型AI训练端算力需求?》中,对未来三年AI训练卡需求持乐观态度。我们认为,推理侧算力对训练侧算力需求的承接不意味着训练需求的趋缓,而是为算力芯片行业贡献第二重驱动力。当前推理算力市场已然兴起,24年AI推理需求成为焦点。据Wind转引英伟达FY24Q4业绩会纪要,公司2024财年数据中心有40%的收入来自推理业务。如何量化推理算力需求?与训练算力相比,推理侧是否具备更大的发展潜力?我们整理出AI推理侧算力供给需求公式,并分类讨论公式中的核心参数变化趋势,以此给出我们的判断。
ScalingLaws&长文本趋势:推理需求的核心驱动力
根据OpenAI《ScalingLawsforNeuralLanguageModels》,并结合我们对于推理算力的理解,我们拆解出云端AI推理算力需求≈2×模型参数量×数据规模×峰值倍数。由ScalingLaws驱动的参数量爆发是训练&推理算力需求共同的影响因素;而对于推理需求,更为复杂的是对数据规模的量化。我们将数据规模(tokens)拆解为一段时间内用户对于大模型的访问量与单次访问产生的数据规模(tokens)的乘积,其中,单次访问产生的数据规模(tokens)可以进一步拆解为单次提问的问题与答案所包含的token数总和乘以单次访问提出的问题数。通过层层拆解,我们发现单次问答所包含的token数是模型中的重要影响因素,其或多或少会受到大模型上下文窗口(ContextWindow)的限制。而随着上下文窗口瓶颈的快速突破,长文本趋势成为主流,有望驱动推理算力需求再上新台阶。
结论:
我们首先根据前述逻辑测算得到AI大模型推理所需要的计算量,随后通过单GPU算力供给能力、算力利用率等数值的假设,逐步倒推得到GPU需求数量。若以英伟达当代&前代GPU卡供给各占50%计算,我们认为2024-2026年OpenAI云端AI推理GPU合计需求量为148/559/1341万张。
建议关注
算力芯片:寒武纪海光信息龙芯中科
服务器产业链:工业富联沪电股份深南电路胜宏科技
风险提示
AI需求不及预期风险、ScalingLaw失效风险、长文本趋势发展不及预期风险、GPU技术升级不及预期的风险、测算模型假设存在偏差风险。