(以下内容从开源证券《中小盘策略专题:Sora和世界模型殊途同归,自动驾驶行业有望加速》研报附件原文摘录)
Sora横空出世,践行规模法则叠加强大工程化能力构筑精品
2024年初,Sora横空出世,凭借惊艳的视频生成效果和分钟级的时长引领市场。Sora生成长达60秒的视频,并且可以通过自然语言、视频、图片作为提示词实现视频生成,相比此前的其他文生视频工具性能优势显著。此外Sora生成的视频还呈现出时间一致性、空间一致性和因果一致性,被OpenAI称为世界模拟器。Sora在数据、算法、算力上均大胆创新,数据方面,采用了特殊的视频编码模式将视频模块化和压缩,构建适用于视频生成模型的时空模块,通过原本具备的大语言模型能力构建高质量的视频文本数据集合文本生成提示词等。算法层面,引入DiT算法增强可扩展性,同时加入某些自回归任务加强模型的帧间信息处理能力。最后OpenAI的强大算力也是Sora诞生的必要因素。
世界模型——自动驾驶的下一站
世界模型是预测未来的梦境,将全面赋能自动驾驶。世界模型即通过对世界基础运行规律的理解来实现对未来的预测。在自动驾驶领域,预测未来可以被用于:生成逼真、稀缺的驾驶场景助力模型的训练以及仿真验证,同时模型也可以直接生成驾驶策略指导自动驾驶运行。而在端到端算法时代,产业对合成数据、闭环验证的需求进一步增强,世界模型的重要性凸显。目前在自动驾驶领域,特斯拉开发了World Model、Wayve开发了GAIA-1、英伟达亦推出自身的基础模型,诸多玩家推出相应产品来实现驾驶场景的视频生成等任务。而在学术界,多种世界模型亦层出不穷,以DriveDreamer为例,模型不仅可以实现驾驶场景的生成,更能生成驾驶场景下所应该实现的驾驶行为,为世界模型应用打开想象空间。
世界模型、视频生成殊途同归,自动驾驶有望迎加速
面向相似的目标,采用相近的方法,多种任务殊途同归,自动驾驶未来已来。视频生成领域,Sora、Runway等均表达了希望进军世界模型的想法,而“预测未来”对自动驾驶乃至具身智能都存在不可替代的意义,长时间、稳定的对未来的场景进行预测是诸多行业面临的难点。而在算法架构方面,我们看到视频生成和自动驾驶的世界模型均有诸多相似之处,均将复杂外部世界获取的数据进行编码和压缩、抽象成为低维度的向量,并采用Transformer或者其他模型在时空维度学习这些知识进而实现预测,再通过不同类型的解码器将之前生成的潜在空间的向量解码成为我们所需要的信息形式,如视频、点云、甚至执行器的控制信息等。而我们也看到在Sora的启发下,OpenSora、Vidu等视频生成工具迭出,效果不俗。大模型开发和自动驾驶汇集AI领域诸多优秀人才和资源,相似的开发方向有望让产业互相借鉴,加速产业发展,推动自动驾驶加速实现。
推荐及受益标的:推荐标的:长安汽车、比亚迪、长城汽车、德赛西威、经纬恒润-W、均胜电子、华阳集团、美格智能、华测导航。受益标的:小鹏汽车-W、理想汽车-W、蔚来-SW、中科创达等。
风险提示:技术进步不及预期、市场需求不及预期、重大事故致行业受挫等。