(以下内容从中国银河《人工智能动态点评:VideoWorld模型开源,探索模型训练新路径》研报附件原文摘录)
事件:2月10日,豆包大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型“VideoWorld”开源。
纯视觉训练模型,摆脱语言模型依赖:现有的各类多模态模型如GPT、Sora等大多较为依赖语言或标签数据学习知识,较少涉及纯视觉信号的学习。VideoWorld可以通过纯视觉的方式进行学习训练:团队构建了一个包含大量视频演示数据的离线数据集,让模型以“观看”的方式进行训练学习,最终得到一个可以根据过往观测到的视觉输入来推演、预测未来画面的视频生成器。我们认为,VideoWorld摆脱了以往模型对语言模型的依赖,通过纯视觉的方式进行学习,改变了以往的模型需要对语言文本进行理解后再进行推理的定式,有望简化模型的输入-理解-推理-输出链条。
引入潜在动态模型,提高视频学习效率:目前,传统的视觉的训练方式由于需要将画面转换为离散标记后进行学习。例如,在围棋的训练过程中,模型只需通过少量的棋子位置标记,但在数据的编码过程中,编码器会产生过多冗余标记,不利于模型对复杂知识的快速学习,使得视频序列的知识挖掘效率显著落后于文本形式。VideoWorld 引入了一个潜在动态模型(Latent Dynamics Model, LDM),可将帧间视觉变化压缩为紧凑的潜在编码,提高模型的知识挖掘效率。最终,VideoWorld在仅有300M参数量且不依赖任何奖励函数机制的条件下,达到9x9围棋专业五段的水平,在机器人任务上也展现出了复杂环境下的泛化能力。
LDM具备前规划能力,模型生成的编码具备因果关系:在围棋相关的训练中,LDM建模了训练集中常见的走棋模式,并能将短期和长期数据模式压缩至潜在空间中。对LDM的模型推理过程进行UMAP可视化后发现,LDM模型生成的潜在编码按照时间步(Time-step)进行分组,使得模型能够从更长远视角进行围棋决策。此外,用随机标记替换不同时间步的潜在编码的实验从侧面说明模型可生成因果相关编码,理解因果关系。
投资建议:我们认为,近期国内AI行业取得多项进展。VideoWorld的纯视觉训练方式在LDM的加持下具有较好的训练效果,且训练方式更贴近生物的视觉学习的模式。展望未来,其开源的策略有望推动视觉训练的快速发展,为行业带来了新的可能性,同时AI模型端的进步有望加速推动在影视、广告、社交陪伴等多个领域应用落地。在应用层面,建议关注受AI赋能的与C端用户体验密切相关的行业:1)AI+游戏:游戏内NPC互动、互动影游;2)AI+教育:智教系统、虚拟实验室;3)AI+办公:内容生成、非结构化数据处理;4)AI+出版:校对修改、智慧发行;5)AI+专业咨询:情感陪护,应用场景专业解答等。
风险提示:政策及监管环境的风险、AI技术发展不及预期的风险、AI应用落地不及预期的风险等。
