(以下内容从上海证券《互联网传媒行业周报:周观点:大模型开启长文本时代,文生3D领域关键性问题取得突破》研报附件原文摘录)
10月9日,大模型初创公司Moonshot AI宣布在「长文本」领域实现突破,推出首个支持输入20万汉字的智能助手产品Kimi Chat。这是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度,标志着Moonshot AI在这一重要技术上取得了世界领先水平。相比当前市面上以英文为基础训练的大模型服务,Kimi Chat具备较强的多语言能力:Kimi Chat在中文上具备显著优势,实际使用效果能够支持约20万汉字的上下文,2.5倍于Anthropic公司的Claude-100k(实测约8万字),8倍于OpenAI公司的GPT-4-32k(实测约2.5万字)。同时,Kimi Chat通过创新的网络结构和工程优化,在千亿参数下实现了无损的长程注意力机制,不依赖于滑动窗口、降采样、小模型等对性能损害较大的「捷径」方案。目前,Moonshot AI的智能助手产品Kimi Chate开放了内测。
文生3D领域取得关键突破,助力解决多视角一致性问题。近日,字节跳动研究人员推出一项名为MVDream的多视图扩散模型,其能够根据给定的文本提示生成几何一致的多视图图像。通过利用在大规模Web数据集和从3D资产渲染的多视图数据集上预先训练的图像扩散模型,生成的多视图扩散模型可以实现2D扩散的通用性和3D数据的一致性。而香港科技大学谭平团队近期发表的论文“SweetDreamer”,同样也提出一种能够提升几何一致性的方法。团队对2D扩散模型进行了微调,使其具有视点感知能力,并生成特定视点的3D物体坐标图。且在处理过程中,只使用粗略的3D信息进行对齐。在人工评估中,“SweetDreamer”的一致性高达85%以上,远超过以往的方法30%左右的水平,意味着此方法在文本到3D生成领域实现了新的技术突破。
根据我们“大模型+小模型+应用&内容”的研究框架,我们认为多模态大模型是未来发展趋势。一方面,多模态可拓展应用范围,随着大模型功能的逐渐完善,大模型的应用场景与生态也有望进一步丰富。另一方面,多模态将推高算力需求,图片、音频等非结构化数据可以提供更丰富的维度,扩大模型参数规模,有助于模型的持续训练和提升,算力需求有望进一步释放。
(1)参数量决定了大模型支持复杂计算的程度,而能够接收文本输入的长度(即长文本技术)则决定了大模型的内存,两者共同决定模型的应用效果。若大模型输入长度受限则会阻碍其应用场景:比如虚拟角色场景中,由于长文本能力不足,虚拟角色会轻易忘记重要信息:基于大模型开发剧本杀类游戏时,往往需要输入数万字基至超过十万字的剧情设定以及游戏规则,如果模型输入长度不够,则只能削减规则和设定,从而无法达到预期游戏效果。我们认为Moonshot Al支持更长的上下文意味着大模型拥有更大的内存,从而使得大模型的应用更加深入和广泛。
(2)文生3D领域关键性问题的突破,不仅对于3D生成具有重要意义,还对于VR/游戏/影视等领域有广泛的应用前景,为实现更高质量、更多样化的3D生成提供新的可能。
目前AIGC行情已有所分化,未来主题性机会有望逐步切换向案例兑现、甚至基本面兑现,龙头及龙头板块需重点关注,持续推荐具备基本面优势的【游戏】板块。
投资建议
基于我们“大模型+小模型+应用及内容”的研究框架,我们认为从基本面受益的角度上看,需沿着目前成熟大模型模态输出的范围选择标的,重点关注AI+文本/虚拟人板块,其次关注AI+图片(大模型+小模型):从价值重估的角度上看,需沿着掌握优质数据或内容(多模态数据)的范围选择标的,重点关注AI+内容/IP/版权板块。
AI行情分化趋势下,建议重点关注基本面优异的【游戏】及【出版】板块:
1、建议关注Al+游戏,如【盛天网络】、【姚记科技】、【神州泰岳】、【三七互娱】、【完美世界】、【吉比特】、【世纪华通】、【巨人网络】;建议关注AI+出版,推荐【皖新传媒】、关注【中文传媒】、【中国科传】、【中国出版】等。
2、建议关注行业垂类大模型,如【创业黑马】、【昆仑万维】
3、推荐中国版Discord【创梦天地】。
4、建议关注【汇纳科技】、【引力传媒】、【浙文互联】、【世纪恒通】。
风险提示
政策边际优化的程度不及预期、疫情致企业经营情况不及预期、A推进进度不及预期、AIGC商业模式或落地场景效果不及预期、内容监管趋严。