(以下内容从山西证券《计算机行业政策点评:首个国家层面系统性规划文件发布,数据标注产业将快速发展》研报附件原文摘录)
事件描述:
1月13日,国家发改委、国家数据局等四部门联合印发《关于促进数据标注产业高质量发展的实施意见》,提出到2027年,数据标注产业专业化、智能化及科技创新能力显著提升,同时产业规模大幅增长,年均复合增长率超过20%。
事件点评:
首个国家层面的系统性规划文件,数据标注产业有望迎来快速增长期。《实施意见》从标注需求、技术创新、生态建设等方面提供全面指导,其中,1)标注需求:重点挖掘智能制造、信息服务等领域的公共数据标注需求,同时加强交通、医疗、金融等重点行业的企业数据标注;2)技术创新:加快突破跨领域跨模态语义对齐、4D标注等领域的关键技术,并加强研发自主可控的智能化标注工具;3)生态建设:推动数据采集、标注、AI应用产业链上下游协同发展。目前国内数据标注产业格局呈现碎片化特征,市场参与者除百度(众测)等自建数据标注平台的科技大厂及海天瑞声、云测数据等专业数据服务商,还有大量中小数据标注众包厂商,数据标注质量、从业人员素质等参差不齐,而《实施意见》通过制定统一的行业标准,能有效淘汰不规范企业,推动行业走向规范化、标准化,并有望通过支持并购重组培育一批龙头企业。
数据标注提升数据供给质量,助推国内人工智能产业发展。目前高质量中文语料短缺的问题日益凸显,根据阿里研究院24年5月发布的《大模型训练数据白皮书》,在全球网站中,英文占比达59.8%,而中文占比仅为1.3%,中文语料的电子化和网络化程度明显不足,同时,受版权、隐私等限制,以中文价值观语料为代表的许多优质中文语料库也无法公开获取。而数据标注是提升数据质量的关键技术,随着国家在政策等层面大力推行数据标注产业发展,数据供给质量将得到提升,进而提升我国人工智能产业的竞争力。
投资建议:随着首个国家层面的系统性规划文件出台,数据标注产业有望迎来快速发展,并将显著提升数据供给质量,从而解决制约国内人工智能产业发展的高质量数据短缺问题,关注在数据标注领域具有技术优势和场景落地经验的厂商,包括海天瑞声、科大讯飞、影谱科技、云从科技等;同时,关注为运行数据标注任务提供计算资源的服务器厂商,包括浪潮信息、中科曙光等。
风险提示:政策落地不及预期,数据标注技术发展不及预期,行业竞争加剧风险。