(以下内容从东吴证券《计算机行业点评报告:数据是AI的胜负手》研报附件原文摘录)
投资要点
GPT产生的重要能力主要来源于海量数据为基础的大模型训练。GPT-3产生了三个重要能力:语言生成、上下文学习、世界知识,这三个重要能力都源于基于海量数据的大模型预训练:在有3000亿单词的语料上预训练拥有1750亿参数的模型。海量数据为基础的大模型训练产生了突现能力(EmergentAbility),带来了AI研究范式的转变。只有在训练数据量足够大时,量变才能引起质变。GPT相比于此前模型所具备的“泛化能力”,就是以海量数据为基础产生的。
数据是AI的胜负手。语言包含价值取向,未来想要不被强势文化压缩生存空间,中国必须发展自己的大模型。算法、算力和数据是AI发展的三大重要基础。展望未来,算法和算力都可以通过挖掘优质人才、引进优秀工程实践,或者直接购买海外优质资产追赶,而培养中文环境的优质数据集、语料库却必须长期自我积累沉淀,因此,我们认为未来数据将成为AI发展的胜负手,并有望为中国训练自己的大模型,走出差异化道路提供重要基础。
数据要素市场建设将提供高质量数据的基础。发展自己的大模型需要以国内数据集为重要支撑,而国内目前缺乏高质量的数据集。国家数据要素市场建设将为国内提供高质量的差异化数据提供有力支撑。随着公共数据逐步开放运营,垂直行业数据由严监管向谋发展转变,数据要素市场化发展将使得算法厂商能够获得质量较高的公共和行业数据,提高训练质量和效率,进而为国内开发符合自身发展和价值观的大模型提供支撑。
投资建议与相关标的:公共和垂直行业数据敏感性高,需要具备央国企背景的厂商参与。我们看好以下三个环节:1)数据运营:我们预计医保数据将有望成为公共数据放开的第一站,重点推荐久远银海,建议关注山大地纬、中科江南等。2)数据基础设施:有望成为最先放量兑现的环节。重点推荐深桑达A,易华录,云赛智联,建议关注中国电信。3)数据安全:我们看好具备央国企背景和数据安全业务积累的相关厂商。推荐启明星辰、奇安信、安恒信息、电科网安等。
风险提示:政策推进不及预期;行业竞争加剧。
相关附件