(以下内容从上海证券《互联网传媒行业周报-周观点:七火山开发AI视频模型,OpenAI开源Transformer Debugger》研报附件原文摘录)
主要观点
在OpenAI展示创新文生视频模型Sora后,Stable Video上线公测,Pika推出视频对口型的Lip Sync及可根据内容自动生成声音的音效生成功能,LTX Studio上线电影制作平台,包含视频生成、编辑、剪辑、旁白全流程。3月5日,超讯通信X七火山大会上,Etna发布一段高清4K文生视频,视频长度达到了破纪录的15秒,并且实现了60FPS的超高帧率,提高了视频的流畅性和观看体验。相较于市场上的现有模型,Etna在时长、高清晰度、丰富生动细节和强语义理解上都保持着较大优势,其模型在语言模型和图像模型中插入时空卷积和注意力层,能够处理视频数据、考虑图像序列中的时间连续性,这也就意味着Etna拥有了一定的时空理解能力,能够理解并生成具有时间维度的视频内容。
3月12日,OpenAI开放了自己内部一直用于分析Transformer内部结构的工具Transformer Debugger,该工具结合了自动可解释性和稀疏自动编码器,研究者可以用TDB工具分析Transformer的内部结构,从而对小模型的特定行为进行调查。Transformer Debugger将“稀疏自动编码器”结合进“用大模型解释小模型”的技术线路中,再将之前OpenAI在可解释性研究中用GPT-4解释小模型的过程零代码化,从而大幅降低了研究人员上手的门槛。OpenAI自动可解释性研究的思路是让GPT-4对神经元的行为进行自然语言解释,然后把这个过程应用到GPT-2中,其像大脑一样由“神经元”组成,并通过观察文本中的特定模式来决定整个模型接下来要说什么。如给出“哪些漫威超级英雄拥有最有用的超能力?”的prompt,“漫威超级英雄神经元”可能就会增加模型命名漫威电影中特定超级英雄的概率。
Transformer Debugger通过识别对行为有贡献的特定组件(神经元、注意力头、自动编码器latents),显示自动生成的解释来分析导致这些组件最强烈激活的原因,并跟踪组件之间的连接以帮助用户发现联系,以此来帮助用户进行Transformer的debug工作。Etna的问世意味着现有国产文生视频技术的再一次突破,有望颠覆短视频创作模式。在大语言模型百花齐放阶段,我们认为国内大厂持续投入大语言模型,有望打造出更适合中国的AI生产力工具。目前AIGC行情已有所分化,未来主题性机会有望逐步切换向案例兑现、甚至基本面兑现,龙头及龙头板块需重点关注,持续推荐具备基本面优势的【游戏】板块。
投资建议
基于我们“大模型+小模型+应用及内容”的研究框架,我们认为从基本面受益的角度上看,需沿着目前成熟大模型模态输出的范围选择标的,重点关注AI+文本/虚拟人板块,其次关注AI+图片(大模型+小模型);从价值重估的角度上看,需沿着掌握优质数据或内容(多模态数据)的范围选择标的,重点关注AI+内容/IP/版权板块。
AI行情分化趋势下,建议重点关注基本面优异的【游戏】及【出版】板块:
1、AI:关注【汇纳科技】、【昆仑万维】;推荐【创业黑马】。
2、MR:推荐【风语筑】;关注【宝通科技】、【凡拓数创】。
3、游戏新模式:推荐【盛天网络】、【完美世界】、【三七互娱】;关注【名臣健康】。
4、影视新模式:关注【中文在线】、【上海电影】、【光线传媒】、【华策影视】。
风险提示
政策边际优化的程度不及预期、疫情致企业经营情况不及预期、AI推进进度不及预期、AIGC商业模式或落地场景效果不及预期、内容监管趋严。