(以下内容从中国银河《计算机行业:Sora对算力需求影响几何?》研报附件原文摘录)
核心观点:
Sora算力需求将呈指数级增长,带动算力基础设施需求。北京时间2月16日凌晨,OpenAI发布了首个文生视频模型Sora,可以用文字指令生成长达60秒的高清流畅视频,在生成视频长度、连贯性、多镜头切换方面具备显著优势。本文基于大语言模型推导算力需求方法,对Sora单次训练算力需求进行推演,据相关研究推测,Sora参数规模估算在30B(待确认),如果按此参数测算,我们推演出Sora训练单次算力需求或可达到2.6×10^24Flops,相当于GPT-3175B的8.2倍。我们认为,目前Sora还在初级阶段,仍然存在如能以准确模拟物理运动规律及场景、混淆左右方向、混淆空间细节等,但伴随Sora不断迭代调优,训练数据集规模增大,未来算力需求将呈现指数级爆发式增长,持续看好上游算力基础设施投资机会。
Sora基于DiT架构,采用Transformer替换U-Net。Sora实际上是一种基于DiT(Diffusion Transformer,扩散变换器)的模型搭建,同时采用了Diffusion与Transformer,是一种用于扩散模型的新架构。Sora受到大语言模型的启发,用Transformer替换扩散模型中的U-Net,通过将Transformer与Diffusion结合成为一种基于扩散变换的模型DiT,趋于标准Transformer架构,同时保留其可扩展性。与大语言模型将文本转换为可被理解的token类似,Sora将视频转换成一系列Patch(视觉编码块)并将其进行降维,用Patch作为视觉图像统一表现形式,将噪声通过去噪来预测原始图像信息,进而生成视频。
Sora实现跨越式提升,文生视频大模型开启新纪元。Sora可以将Prompt转换成长达60秒视频,相对于此前文生视频大模型Runway、Pika、Stable Video等提升几个级别。同时在视频分辨率以及质量方面,Sora可以生成1080P清晰度视频,并且能够相对完整实现对世界及物体运动规律理解及模拟,在镜头切换方面保持稳定性。此外,Sora还支持图片格式输入、视频扩展、视频拼接等,是文生视频领域突破性技术变革。
投资建议:Sora是人工智能发展进程中的“里程碑”,推动AGI时代加速到来,算力需求将持续爆发,持续看好产业链投资机会。建议重点关注国内上市公司:1、国内多模态大模型:科大讯飞、海康威视、大华股份;2、算力基础设施:工业富联、中科曙光、软通动力、神州数码、华勤技术、曙光数创、润泽科技、拓维信息;3、AI应用端:万兴科技、金山办公、超图软件、彩讯股份、拓尔思、卫宁健康、嘉和美康等。
风险提示:技术研发进度不及预期风险;供应链风险;政策推进不及预期风险;消费需求不及预期风险;行业竞争加剧风险等。