成功融合“扩散+语言大模型”的Sora 能带飞哪些国内企业？丨黄金眼_股票频道

（原标题：成功融合“扩散+语言大模型”的Sora 能带飞哪些国内企业？丨黄金眼）

类似于GPT3里程碑意义的Sora，再度引发市场对巨大潜力领域的展望。

Sora何许人也？

2024年2月16日，OpenAI推出一款展示效果惊艳，创立了视觉模型里程碑文生视频模型Sora。

Sora根据文字生成视频资料来源：Sora官网

视频生成一直是AI领域的重要方向，先前的许多工作研究了视频数据的生成建模方向，包括循环网络、生成对抗网络、自回归transformer和扩散模型。这些工作通常关注一小类视觉数据、较短的视频或固定大小的视频。

与之不同的是，OpenAI的Sora是视觉数据的通用模型，通过一次为模型提供多帧的预测，解决了一个具有挑战性的问题，即确保主题即使暂时离开视野也保持不变。具体而言，就是涌现对真实物理的理解力。

OpenAI发现，视频模型在经过大规模训练后，会表现出许多有趣的新能力。这些能力使Sora能够模拟物理世界中的人、动物和环境的某些方面。这些特性的出现没有任何明确的三维、物体等归纳偏差，纯粹是规模现象。Sora可以生成动态摄像机运动的视频，随着摄像机的移动和旋转，人物和场景元素在三维空间中的移动是一致的，而视频生成系统面临的一个重大挑战正是在对长视频进行采样时保持时间一致性。

虽然Sora并不总是能有效地模拟短距离和长距离的依赖关系，但它在很多时候仍然能做到这一点。例如，即使人、动物和物体被遮挡或离开画面，Sora模型也能保持它们的存在。同样，它还能在单个样本中生成同一角色的多个镜头，并在整个视频中保持其外观。这些功能表明，视频模型的持续扩展是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条可能的道路。

资料来源：Sora官网

同时，Sora可以生成不同时长、长宽比和分辨率的视频和图像，而且最多可以输出长达一分钟的高清视频。

由于处理生成视频内容需要消耗大量算力资源，加上内容既要时间上连贯，又要符合物理世界规律，才能保证生成的视频逼真，而开发能够理解复杂叙述结构和逻辑关系的文生视频模型是非常困难的，时间越长，维持这种连贯性和逻辑性就会越难，这就导致过去一年主流AI生成视频模型所生成的视频长度最长也仅十余秒。

Sora标志了扩散+语言大模型融合路线的成功，未来具有很大的迭代潜力，类似于GPT3的里程碑意义。

Sora对应的国内行业机遇在哪里？

Sorta模型的推出显示了大模型的巨大潜力，也对算力的需求和性能提出了更高的要求，半导体行业又迎来了新一轮的增长曲线。

大模型驱动下，全球算力规模保持高速稳定增长。复杂的模型和大规模的训练需要大规模的高算力支持，这不仅需要消耗大量计算资源，而且对算力的速度、精度、性能也提出更高要求。在以人工智能、万物互联为特征的智能数字经济时代背景下，全球数据总量和算力规模继续呈现高速增长态势。

根据《中国算力发展指数白皮书》，2022年全球计算设备算力总规模达到906EFlops，增速达到47%，其中基础算力规模（FP32）为440EFlops，智能算力规模（换算为FP32）为451EFlops，超算算力规模（换算为FP32）为16EFlops。

2022年我国算力总规模达到302EFlops，全球占比约为33%，连续两年增速超过50%，高于全球增速。基础算力规模为120EFlops，增速26%，在我国算力占比为40%；智能算力规模达到178.5EFlops，增速72%，占比达59%，成为算力快速增长的驱动力。

数据来源：中国信息通信研究院，IDC，Gartner

根据DiT模型创立者谢赛宁博士粗略测算，Sora模型的参数规模大约为30亿。根据对可训练数据量的研究成果，海外大型视频网站每分钟大约上传500小时视频内容。由此我们测算训练Sora模型需要约7.09万张H100一个月的训练量。在推理侧，根据相关研究测算生成一张图的算力消耗约为256个词的消耗。由此推算生成一个1分钟时长短视频的算力消耗约是生成一次文字对话的千倍以上。中短期算力将持续处于短缺不能充分满足推理侧需求。

GPT-4、Dall·E2、Gen2、Sora，主流模型多模态加速演进资料来源：OpenAI官网，Runway官网

根据目前AI新智界、澎湃新闻等数据，专业机构假设SORA应用的Transformer架构与ChatGPTTransformer架构相同，且参数量相同，同时假设数据数据精度为FP16，训练10天，则需要应为英伟达H100卡数为59500张，即Sora架构的训练与传统大语言模型(LLM)Transformer架构的训练算力需求存在近百倍差距。

相关企业有哪些？

首先，算力需求增长是确定性最强的方向，浪潮信息、中科曙光、神州数码、紫光股份、首都在线等企业都参与其中；同时，算力紧缺大背景下，配套光网络持续升级的需求极强，带动产业链围绕尖端算力芯片持续迭代升级，北美光模块核心供应商的中际旭创、新易盛，及其上游核心供应商天孚通信都有望受益。

而在交换机领域，GPU服务器按照GPU芯片之前的互联方式中的常规服务器PCIE机型，受限于PCIE的带宽上限，卡与卡双向互联带宽低，不满足大模型训练需求，因此只能通过Nvlink机型，即GPU卡之间通过NVLINK链路互联，相比PCIE带宽更高，更适合于大模型训练场景，使得交换机国产替代龙头紫光股份、锐捷网络，交换机芯片龙头盛科通信、ICT巨头中兴通讯都有需求增量。

此外，构建算力第二极的华为海思昇腾AI芯片，其整个产业链具备较高的关注价值。

昇腾AI芯片的计算核心主要由AICore构成：AICore采用了达芬奇架构，它包括了三种基础计算资源，矩阵计算单元、向量计算单元和标量计算单元。这三种计算单元分别对应了张量、向量和标量三种常见的计算模式，在实际的计算过程中各司其职，形成了三条独立的执行流水线，在系统软件的统一调度下互相配合达到优化的计算效率，AICore中的矩阵计算单元目前可以支持INT8、INT4和FP16的计算；向量计算单元目前可以支持FP16和FP32的计算。专业人士认为本质上讲昇腾芯片属于专为AI而生的特定域架构芯片，根据和各AI训练卡参数规格一览可知，国产算力华为已具备性价比。

当前，华为昇腾计算平台CANN已经实现从0至1突破。2018年9月，CANN1.0华为昇腾AI使能平台诞生，2020年8月，CANN3.0版本发布，作为专门面向AI场景的异构计算架构，搭起了上层深度学习框架和底层AI硬件平台的桥梁，目前华为CANN计算平台已经到了7.0版本，其生态加速繁荣。

华为CANN昇腾AI计算平台资料来源：昇腾官网

整个产业链背后，服务器相关的有高新发展、神州数码、拓维信息、中国长城等企业；电源相关的是泰嘉股份；算力一体机相关的有开普云、云从科技、科大讯飞、安恒信息、新致软件等；鸿蒙相关的有九联科技、润和软件、软通动力、中软国际等。

证券之星微信

扫描二维码

关注

证券之星微信