首页 - 股票 - 数据解析 - 财报审计 - 正文

海天瑞声(688787)2025年半年度管理层讨论与分析

来源:证星财报摘要 2025-09-03 16:29:15
关注证券之星官方微博:

证券之星消息,近期海天瑞声(688787)发布2025年半年度财务报告,报告中的管理层讨论与分析如下:

发展回顾:

一、报告期内公司所属行业及主营业务情况说明

    (一)所属行业情况

    1.行业的发展阶段、基本特点、主要技术门槛

    1.1行业的发展阶段、基本特点

    (1)政策、技术、应用协同共振,全球AI产业迈入高速发展新阶段

    当前,全球人工智能产业正迎来历史性发展拐点,政策、技术与应用的三重共振推动行业进入高速增长通道。中、美、欧三大经济体持续加码AI布局:中国通过《新一代人工智能发展规划》和《"十四五"数字经济发展规划》等构建了涵盖技术研发、资源建设和标准制定的全链条政策体系;美国则依托《人工智能行政令》和星际之门计划(Stargate)等,持续巩固其在人工智能基础设施领域的领先优势;欧盟以《人工智能大陆行动计划》为纲领,配套《数字欧洲计划(2025-2027年工作方案》专项资金,重点培育AI与高性能计算融合创新。技术层面,人工智能也正在经历革命性突破,DeepSeekR1等开源模型通过性能提升与成本优化的双重突破,显著降低了技术应用门槛;多模态大模型(如Genie3、GPT-5)也在不断拓展AI能力边界,实现全模态互动能力。这种技术平权运动正在加速AI向千行百业渗透,大模型已逐步开始向金融、医疗、制造等核心领域进行新一轮的赋能,智能风控、AI辅助诊断、智能制造等应用场景不断丰富,推动各行业效率提升和模式创新。全球AI产业也将在上述政策引导、技术迭代与商业落地的正向循环下,迎来前所未有的发展机遇,加速向规模化、价值化阶段迈进。

    根据国际数据公司(IDC)的数据,2024年全球人工智能(AI)IT总投资规模为3158亿美元,预计在2028年增至8159亿美元,年复合增长率(CAGR)为32.9%。

    中国作为全球科技大国,也深度受益AI技术发展。根据艾瑞咨询的数据,2024至2029年中国AI产业将保持32.1%的年均复合增长率,在2029年突破1万亿的市场规模。

    (2)训练数据作为AI发展和演进“燃料”的作用更加凸显,并逐渐成为大模型竞赛中的重要决定性要素

    在AI产业链中,算法、算力和数据共同构成技术发展的三大核心要素。过去十多年,人工智能产业以算法为核心,通过深度学习算法的不断创新,推动人工智能产业的快速发展。但未来,当更多先进算法趋于开源,算法的差异化壁垒逐渐消除;此外,以DeepSeek为代表的算法架构创新和工程优化,带来了训练以及推理成本的大幅下降,这也意味着算力将不再是制约AI发展的核心因素。在此背景下,训练数据的重要性被进一步放大,成为未来AI发展的关键驱动因素。数据的质量、规模和精准性将直接决定模型能力的上限,高质量的训练数据不仅能显著提升模型的推断可靠性,还能有效减少幻觉和错误信息的产生,成为模型落地效果的关键。因此,高质量数据需求将呈现快速增长趋势。

    根据Cognilytica数据统计显示,预计2027年全球AI训练数据市场规模将增长到220亿美元,2021-2027年复合增长率达32%。

    中国作为全球人工智能产业增速最快的国家之一,相关数据需求也在快速增长。根据艾瑞咨询的数据,2024年中国人工智能基础数据服务市场规模为58亿元,2028年规模将达到170亿元,年复合增长率为30.84%。

    (3)数据要素价值加快释放,数据产业已成为数字经济发展新增长点

    在数字浪潮席卷全球的当下,数据产业已成为经济发展的新引擎。在以习近平同志为核心的党中央坚强领导下,我国牢牢把握数字化、网络化、智能化发展机遇,全面深化数据要素市场化配置改革。坚持推进数据要素市场化配置改革“一条主线”,统筹数字中国、数字经济、数字社会“三个建设”的工作思路,推动数据工作更好服务高质量发展。同时,探索完善数据基础制度体系,加快推进数据基础设施建设,提升数据资源开发和利用水平。2024年国家数据局联合多部门制定《关于促进数据产业高质量发展的指导意见》、《关于加快公共数据资源开发利用的意见》、《关于促进数据标注产业高质量发展的实施意见》等21项政策,2025年还将有10余项政策发布,进一步完善数据基础制度,充分体现国家高度重视数据产业高质量发展。《关于促进数据产业高质量发展的指导意见》指明了数据技术和产业重点发展方向;《关于促进数据标注产业高质量发展的实施意见》明确提出培育壮大数据标注产业对于提升数据供给质量,推动人工智能创新发展具有重要支撑作用。

    各地开展流通利用基础设施先行先试,不断夯实数据开发利用的设施底座,布局数据基础设施。以场景牵引带动数据要素价值充分释放,深入实施“数据要素×”行动,开展公共数据“跑起来”示范场景建设,全面深入推动数据开发利用。培育数据汇聚共享、开发利用的数据企业,加快构建全国一体化数据市场。成立全国数据标准化技术委员会,不断推出数据标准、规范。持续推进高质量数据集建设,支撑人工智能创新发展。据国家数据局统计,我国已经建设高质量数据集超过3.5万个,总体量超过了400PB。人工智能模型的训练也推动了数据交易需求的攀升,截至2025年6月底,各地高质量数据集累计交易额近40亿元,数据交易机构挂牌的高质量数据集总规模达到了246PB。

    全国各地数据要素市场化配置改革也在加速推进。例如北京市在探索和实践数据基础制度先行示范区、人工智能数据训练基地的基础上,发布《北京市关于建设数据要素综合试验区的实施意见》,开展数据要素综合试验区建设,打造“高端数据标注基地”。上海印发《关于人工智能“模塑申城”的实施方案》,瞄准技术前沿,坚持应用牵引,通过推进人工智能“模塑申城”,建设智能算力集群、语料供给体系、虚实融合实训场、行业基座大模型等基础底座,打造智能终端、科学智能、在线新经济、自动驾驶、具身智能等关键领域生产力工具,聚焦金融、制造、教育、医疗、文旅、城市治理等重点行业加速应用赋能。

    成都市《成都市进一步促进人工智能产业高质量发展的若干政策措施实施细则》,提出支持高端要素聚集。实施公共数据资源赋能人工智能产业发展行动。依托成都市公共数据开放平台、成都市公共数据运营服务平台,依法、合规、有序向人工智能企业提供公共数据开放服务和授权开发利用。支持企业自主或联合行业协会、科研机构等建设高质量人工智能数据集。长沙市政府印发《长沙市关于推进国家数据标注基地建设的若干政策(试行)》,从聚焦加快培育标注产业、支持技术创新攻关、加强专业人才培育、促进数据服务赋能等四大方面推出了14条产业政策,加大扶持力度。湖北武汉发布《武汉市促进数据产业发展若干政策措施(征求意见稿)》,提出聚焦数据产业发展的关键核心技术,组织实施市级科技重大专项,根据项目投入、实施难度、实施成效等情况,给予单个项目最高2000万元资金支持。呼和浩特市政府发布《关于促进绿色算力及人工智能产业高质量发展的若干意见》,每年统筹安排1.28亿元专项资金,推出5大方面、17项有力措施,全力推动产业升级。

    总体来看,我国数据产业发展势头良好、前景广阔。随着“人工智能+”和“数据要素×”等国家战略行动计划的实施,全国各地均在加速推进数据要素市场化配置改革,未来将以高质量数据集建设,夯实人工智能数据基石,推动数字经济高质量发展为目标,围绕数据的汇聚、治理、标注、运营、评测、开发利用以及流通交易全流程,将产生包括数据汇聚、数据治理、数据标注、数据运营、数据评测、数据应用、数据流通、可信数据空间、数据标注基地运营等在内的新业态、新模式,将成为我国数字经济发展的新增长极。

    (4)训练数据领域的未来发展趋势

    随着DeepSeek、GPT-4o等成为全球范围内的现象级应用,以及以手机、具身智能为代表的AI终端的快速推出,人工智能迎来了新的发展机遇,其背后的大模型技术也正在带来相关数据需求的变化和增长。

    a.多模态大模型正成为人工智能发展的新趋势,多模态数据需求显著上升

    当前,大模型正经历从单模态到多模态的范式转变。多模态技术的本质在于跨模态信息融合,即通过协同处理文本、图像、音频、视频等不同形式的数据,使AI具备更接近人类的全维度认知能力。这种演进不仅显著提升了模型在跨模态任务中的鲁棒性,更解锁了诸如视觉问答、跨模态生成、智能语音交互等复杂场景的应用潜力。

    以视觉问答为例,系统需同时解析图像中的视觉元素和文本问题的语义信息,并通过模态对齐与知识推理生成准确回答。这一过程的实现,依赖于海量高质量的图文对数据。数据服务商需构建覆盖多样化场景的问答对,通过模拟真实世界的视觉推理逻辑,训练AI建立视觉-语言联合表征能力。而在语音合成领域,要实现富有表现力的拟人化发声,仅有时序对齐的文本-语音数据远远不够,还需引入情感标签、语调标记、韵律特征等细粒度标注,让AI精确捕捉人类语言中的情感起伏和表达风格。

    实践证明,数据质量与多样性是多模态AI发展的决定性因素:一方面,优质数据定义了模型的能力上限;另一方面,数据分布的广度直接关系到技术落地的普适性。未来,随着多模态数据生态的持续完善,AI的感知与认知能力有望实现新的跨越。

    b.大模型发展正在从"规模驱动"向"推理驱动"转型,高质量思维链(CoT)数据成为提升大模型复杂推理能力的关键突破口

    随着DeepSeekR1的推出,思维链技术(ChainofThought,CoT)迅速成为AI领域的研究热点。这项技术通过引导模型模拟人类逐步推理的过程,显著提升了其在逻辑推理、数学计算及复杂问答等任务中的表现。

    过往几年,大语言模型(LLM)的发展主要遵循ScalingLaw(规模定律),即通过扩大模型参数量和训练数据规模来提升性能。然而,随着知识积累的边际效益逐渐降低,仅单纯依赖规模的增长已难以实现质的飞跃。于是,让AI像人类一样进行深度、有序的“慢思考”,成为突破现有认知能力瓶颈的关键方向。以数学问题为例,传统LLM往往直接输出最终答案,而省略中间推理过程,导致错误率居高不下。相比之下,具备CoT能力的模型会分步骤解析问题,先理解题意,再梳理已知条件,逐步推导计算,并最终验证结果的合理性。这种显式推理机制不仅大幅提高了模型的准确性,还使其决策过程更加透明,便于开发者理解和优化。

    然而,思维链能力高度依赖高质量的CoT数据——即包含详细推理步骤的问答对。这类数据由于专业性强、标注难度高,目前仍属于稀缺资源。具体而言,优质的CoT数据需要领域专家进行人工构建,不仅要确保问题本身的复杂性,还需对解题过程中的每个逻辑进行严格验证,这种双重门槛使得数据生产周期往往长达普通标注任务的数倍。当前即便是最前沿的合成数据技术,在生成具有严密因果关系的多步推理时,仍会有相当概率出现逻辑断层,这也使得高阶人工标注目前仍是不可替代的重要数据来源。

    c.从通用到垂直,高质量行业数据需求显著提升

    以DeepSeek为代表的开源大模型,以其高性能、低成本,以及允许全球用户无限制商用等特点,进一步加速了AI应用的普及,激发了应用层的创新活力,使AI逐渐从通用大模型向更广泛的应用场景和行业领域拓展,AI不再局限于作为回答通用问题的智能助手,而是能够针对特定行业/场景提供解决方案,或者协助执行各类复杂任务的超级助理(AIAgent)。例如,在医疗领域,AI可以作为影像科医生辅助诊断;在法律领域,AI可以担任法律顾问提供专业咨询;同时,AIAgent也能够独立完成点外卖、制定行程、预订机票等日常任务。

    AI不仅在传统行业与生活场景中展现出独特价值,在智能终端领域,同样掀起了革新的浪潮。例如,AI在智能手机上的应用,可以帮助用户通过文字快速创作专业级摄影大片;当海量照片让整理相册成为难题时,可以快速通过文字描述定位对应图像,实现即时快速检索。在交互层面,AI赋能的语音助手也有质的飞跃。如今的语音助手不再是简单的指令执行者,它们能理解各种不同语种、不同场景下,复杂的语义和情感,并用不同的音色情感与用户进行交互。

    与以往通用数据处理需求不同,垂向领域的数据处理更加注重专业性。例如,传统的自然语言处理只包括基本的文本处理工作,例如,分词、词性、正则化等标注需求,这些任务无需标注人员具有特定的行业知识;相对地,开发专门领域,例如医疗大模型,则要求标注人员不仅具备扎实的医疗专业知识,还要能够熟练使用医疗术语进行专业场景下的表达,使医疗模型能够理解和生成专业的医疗内容。这种专业化的需求也对数据服务商提出了更高的要求,数据服务商不仅要对行业有深刻的理解,以设计出符合行业需求的数据解决方案,还需要具备更丰富的专家库储备,以提供高质量的数据标注服务以及相关专业咨询服务。

    d.具身智能浪潮来袭,数据供给瓶颈亟待突破

    具身智能作为通向通用人工智能(AGI)的关键路径与终极载体,正引领着AI发展的下一波浪潮。与传统大模型不同,具身智能的核心在于构建能够与物理世界深度交互的智能体。这不仅需要突破性的多模态感知技术(包括视觉、听觉等),更重要的是要具备基于环境感知的自主决策与执行能力。实现这一目标的关键在于海量的物理世界交互数据,目前行业主要依赖四种数据来源,互联网开源数据集(整合现有的公开机器人数据)、虚拟合成(利用仿真环境生成训练数据)、动作捕捉(记录人类在特定环境中的行为模式)、以及机器人遥操(通过人工远程操控获取真实场景下的操作数据)等。其中,虚拟合成技术虽解决了初期数据短缺问题,但由于"仿真差距"的存在,其数据质量往往难以满足高精度训练需求。而开源数据集则面临着数据规模有限(通常仅百万级)、采集条件单一等挑战,无法支撑复杂场景下(需要千万级数据)的模型训练需求。当前,在具身智能蓬勃发展的大背景下,高质量的数据供给短缺问题愈发凸显,具身智能的训练数据市场呈现出巨大的供需缺口,需求旺盛且潜力巨大。

    e.国家法律法规密集落地,对数据安全及合规提出更高要求

    近年来,数字经济规模快速扩张,数据作为数字经济时代核心生产要素,重要性更加凸显,但数据不同于传统生产要素,其中可能涉及个人隐私以及国家安全的重要信息,因此,为更好保障数字经济长期稳定的可持续发展,建设规范、安全、合规、高质量的数据安全体系已成为迫切需求。近年,国家陆续出台包括《数据安全法》、《个人信息保护法》、《网络数据安全管理条例》等主流法律法规,为解决数据安全问题、净化行业快速发展中的不良乱象提供了切实可行的法律依据。

    未来,随着AI技术不断革新,应用行业以及场景不断增加,各行业、各领域数据安全规范逐渐落地将成为趋势,对于以数据生产为主营业务的数据服务企业,数据安全及合规能力将成为数据服务能力的核心评价维度,成熟的安全合规管理体系将成为重要评价标准,能持续跟踪法律环境变化,积极响应监管政策,牢牢把握发展与安全并重的原则的企业将具有更强的市场竞争力。

    1.2行业的主要技术门槛

    随着AI技术不断演进、产业应用不断丰富,训练数据的市场需求呈现体量、难度、复杂性、合规性持续上升的趋势,数据服务商须同时具备对人工智能核心算法的理解能力、前瞻性的专业数据集设计能力、丰富的语言覆盖能力及场景采集能力、算法辅助数据生产能力、以及数据合规管理能力,这使得行业的技术门槛持续提升,具体体现为:

    (1)在训练数据研发、生产全流程中的算法全面介入

    随着AI技术应用落地的规模化效应凸显,客户对于数据规模和处理效率的要求不断提升,数据服务商须在研发、生产流程中全面引入算法以实现高效、合理的人机协作模式,进而实现降本增效的目标。一般而言,在训练数据研发、生产全流程中融入算法技术,可用于训练数据集的设计及训练数据生产的各个环节,例如调度不同类型的标注人员应对不同领域的任务、形成算法自动处理能力以帮助标注人员提升效率、降低对人员的依赖(既有人员数量的降低、也有对人员标注能力要求的降低),并构建训练数据设计、加工相关的核心技术;也可用于检查训练数据集对算法模型的训练效果,进而保障训练数据集质量。

    (2)平台工具链功能及适配性要求持续提升

    当前,客户侧的数据采集、标注需求范围在逐渐拓宽,数据采集与标注需满足的AI应用场景比以往明显更加广泛、复杂,这就对数据服务商的平台工具能力提出了更高要求,平台上处理大规模的数据、这些处理过的数据的多样性和复杂程度如何、算法引擎投票机制如何建立、置信区间如何设置、算法在平台中如何应用、数据流转的工程化程度如何等等这些因素都决定了平台的适配性和能力如何,并最终决定了数据处理的质量、效率、成本。

    (3)语音语言学基础研究方面须有深厚积累

    伴随语音技术进一步发展落地、并向各行各业和更多垂直场景不断渗透,同时受到中国企业出海需求、国外企业区域拓展需求两方面的支撑,客户在多语种、多音色、音素集、发音规则、发音词典等方面的要求在不断抬升,这意味着只有那些在语音语言学基础研究方面投入更多、拥有深厚积累的数据服务商才能满足客户在这方面的多元化需求。

    因此,市场上仅有极少数企业通过长期自主研发的方式能够达到上述核心技术门槛,成为有能力向不同客户群体提供综合、高效、合规的数据产品及服务的供应商。

    2.公司所处的行业地位分析及其变化情况

    作为行业的头部阵营企业,海天瑞声在经营情况、技术实力、以及以数据安全为代表的其他综合能力方面都展示出明显优势,并具有较强国际竞争力。近年来公司紧跟AI技术发展趋势,尤其关注在客户资源、技术实力、产品/服务等方面的竞争优势,树立国内领先基础数据服务商的品牌形象,以巩固公司的行业领先地位。

    (二)主营业务情况说明

    公司主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工,最终形成可供AI算法模型训练使用的专业数据集,通过软件形式向客户交付。

    自2005年成立以来,公司始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。经过多年发展,公司已成为人工智能基础数据服务领域具有较强国际竞争力的国内头部企业,并实现了标准化产品、定制化服务、相关应用服务全覆盖。公司所提供的训练数据涵盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个核心领域,全面服务于人机交互、智能家居、智能驾驶、智慧金融、智能安防等多种创新应用场景。

    公司的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国移动、中国科学院、清华大学等国内外客户的认可,应用于其研发的个人助手、智能音箱、语音导航、内容生成、搜索服务、短视频、虚拟人、智能驾驶、机器翻译等多种产品相关的算法模型训练过程中。目前公司客户累计数量超过1100家,覆盖了科技互联网、社交、IoT、智能驾驶、大模型等领域的主流企业,以及政企、教育科研机构。

    (三)主要产品及服务情况

    1.主要产品及服务按业务类型分类

    公司研发、生产的训练数据覆盖了智能语音、计算机视觉及自然语言处理三大AI核心领域,广泛应用于算法模型的开发、训练、优化、应用场景拓展等环节。此外,公司还提供与训练数据相关的应用服务。

    (1)智能语音

    人工智能在语音领域的应用技术主要包括语音识别、语音合成等。

    语音识别(AutomaticSpeechRecognition,ASR)是让机器能够“听懂”人类语音的技术,它能使机器自动将语音信号转换为对应的文本信息。

    语音合成(TexttoSpeech,TTS)是让机器能够“说出”人类语音的技术,它使机器能将文字信息转化为流畅的语音“朗读”出来,相当于给机器安上了人工嘴巴。

    以日常生活中的情景为例,语音输入法、即时通讯软件运用了语音识别技术将用户输入的语音实时转换为文字,实现了软件“听懂”语音并“听写”出文字的效果;而地图、导航软件则运用语音合成技术,实现了软件“发声说话”的效果,为用户提供即时语音导航。

    公司通过设计(设计训练数据集结构、供发音人朗读录制的语料文本或对话场景、发音人分布、录音设备场景等)、采集(定义合适的发音人、选取录音设备及软件、组织发音人朗读录制音频)、加工(对音频文件进行切分、标注各类声音特征,形成带时间戳和特征标签的文本和标注文件等)、质检(对数据集进行质量检测,如音字一致性、标注准确率检查等)等训练数据集生产环节;或者针对客户提供的原料音频文件执行加工、质检工作,最终形成客户所需的智能语音训练数据集。

    (2)计算机视觉

    计算机视觉(ComputerVision,CV)是使机器具备“看”的功能的技术,它使得智能驾驶、智能家居、手机、安防设备等机器能够代替人眼对目标进行识别、跟踪和测量等。

    以日常生活中的情景为例,在汽车的自动驾驶功能中,计算机视觉技术使得汽车能够“看见”并识别行车过程中的各种行人、路况场景,为后续作出相应的反应奠定基础;在机场、车站安检中,计算机视觉技术使得人脸识别设备能够识别被检验人员是否为其出示的身份证件显示的人员。

    公司通过设计训练数据集结构、采集(如定义合适的人脸、动作、场景作为采集对象,组织被采集人按照要求拍摄照片、录制视频等)、加工(对图像、视频文件进行打点、拉框、分割标注等)、质检(对数据集进行质量检测,如检验图片、视频文件格式是否正确,检查光照环境、物体种类的数量是否达标,打点标框的准确率是否符合要求等);或者对客户提供的图像、视频文件执行加工、质检工作,最终形成客户所需的计算机视觉训练数据集。

    (3)自然语言处理

    自然语言处理(NaturalLanguageProcessing,NLP)是使机器能够像人一样理解语言意图的技术。

    以日常生活中的情景为例,寄送快递时使用的“智能填写”功能即运用了自然语言处理技术,在输入框中填入整段联系信息,软件应用能够理解语义,并从中识别及提取“收件人”、“联系方式”、“地址信息”等所需信息,完成自动填写;智能客服、聊天机器人等人机交互程序也运用了自然语言处理技术,使得程序、机器能够读懂人类语言的真正意图,并相应做出反应、提供服务等。

    公司通过设计训练数据集结构、采集(收集或编写自然语言文本、对话等数据信息)、加工(对自然语言文本数据进行单词分割、词性标注、语义语法标注、情感属性标注等)、质检(对数据集进行质量检测,如检验文本、词性或者语义的标注结果是否准确等);或者对客户提供的自然语言文本执行加工、质检工作,最终形成客户所需的自然语言训练数据集。

    (4)训练数据相关的应用服务

    公司开放基于多年行业经验打磨的数据处理工具集及平台,提供包括公有云访问、私有化部署及SaaS化服务的多种能力,满足产业链上各类企业对于数据处理工具及平台能力的需求。

    公司基于自身生产的训练数据提供算法相关的模型训练服务、模型评测服务及模型应用服务,运用训练数据研发能力助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等,为客户定制针对特定应用场景的专属算法模型,提高AI技术应用效果。

    前述产品、服务均以公司生产的专业训练数据集为核心或基础。公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工,最终形成可供算法模型训练使用的专业数据集。

    成品训练数据集主要由数据文档、说明文档、技术文档三部分构成。以智能语音训练数据集为例,成品训练数据集包含原始采集形成的音频文件、与音频文件对应的带有时间戳的标注文件,训练数据集相关的设计文档、训练数据集说明,发音词典,数据集参数信息文件等。

    2.主要产品或服务的终端应用场景

    公司提供的高质量、大规模、结构化的训练数据,为算法模型的训练拓展提供了可靠的训练素材,助力AI技术实现实践应用及商业化落地,赋能AI技术与实体经济深度融合。公司提供的训练数据广泛应用于众多主流AI产品及终端应用的训练过程中,覆盖了个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等多种应用场景。

    (四)主要经营模式

    1.盈利模式

    与主要产品及服务类型对应,公司的盈利模式主要包括以下三类:

    (1)定制服务:公司根据客户需求提供定制训练数据集并收取服务费。在此种模式下,公司享有服务费收入,不享有最终生成的训练数据的知识产权,不可将此类业务生产的训练数据向其他客户重复销售。

    (2)标准化产品:公司开发自有知识产权的训练数据集产品,通过销售训练数据集产品的使用授权许可,获取让渡资产使用权收入。此类训练数据集一经开发完成,可多次销售并获取授权许可收入。

    (3)训练数据相关的应用服务:公司基于积累的训练数据和多年行业经验提供数据处理工具集及平台服务、算法相关的模型训练、模型评测及模型应用服务,通常以软件授权或软硬件一体化形式交付平台产品、算法模型拓展、开发成果等,获取让渡资产使用权收入和技术服务等收入。

    2.生产或服务模式

    (1)训练数据集生产模式

    公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工,最终形成可供算法模型训练使用的专业数据集。

    公司的训练数据生产过程主要包括四个环节:设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测)。

    (2)训练数据相关的应用服务模式

    公司开放基于多年行业经验打磨的数据处理工具集及平台,提供包括公有云访问、私有化部署及SaaS化服务的多种能力,满足产业链上各类企业对于数据处理工具及平台能力的需求。

    公司基于其生产的训练数据提供算法模型相关的训练、评测及应用服务,助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等,为客户定制针对特定应用场景(例如特定行业、特定口音等)的专属算法模型,提高AI技术应用效果。

    以某大型科技公司客户项目为例,客户研发了特定语音识别算法模型,需要根据算法模型的实际场景(如法院庭审场景)开发落地应用。公司承担了部分落地应用拓展相关的开发工作,围绕客户的算法模型和接口开发,最终协助客户算法模型实现多个麦克风收集庭审语音内容并实时转成文字记录入系统的功能。

    3.采购模式

    按照采购的内容及主体划分,公司的采购包括:

    数据服务采购:公司在数据采集、加工环节中,向人力资源服务等类型的公司等供应商采购的,非核心技术环节的原料数据采集、标注服务。

    岗位服务采购:主要针对临时性的、不设长期岗位的业务领域的外包采购,如保洁、临时招聘服务、少量实习生招聘等。

    其他采购:(1)训练数据生产所需的资产,主要包括软、硬件设备及其他需求物品采购;(2)日常运营所需的资产及物品,如办公用房、车辆、办公家具、计算机设备等;(3)日常专项服务采购等,主要包括审计服务、会议服务、差旅服务等。

    上述原料数据采集、加工环节所涉及的数据服务采购,为公司最主要的采购类别,由集采中心负责;各部门岗位服务采购由人力资源部负责;其余日常运营相关的资产物品采购、专项服务采购等非业务采购由集采中心负责。财务中心负责参与采购供应商的遴选、监督与管理,并对采购费用进行核算及结算。

    经过多年的发展,公司已经建设有完善的《海天瑞声采购管理制度》、《海天瑞声项目资源采购管理制度》、《海天瑞声供应商管理制度》、《海天瑞声岗位服务采购管理制度》等内部规范制度,设立有完善的采购流程和体系,并与主要的供应商形成了良好稳定的长期合作关系。

    4.营销模式

    公司采用直接对接并服务客户的直销模式进行营销,符合行业通行惯例。公司以高质量的训练数据集及相关服务吸引客户,并在持续服务客户的过程中提升服务价值和客户黏度。

    二、经营情况的讨论与分析

    2025年上半年,在全球人工智能产业蓬勃发展的大背景下,公司业务实现全面增长。一方面,随着多模态大模型技术持续突破和“人工智能+”应用场景不断丰富,全球训练数据需求呈现爆发式增长,公司凭借丰富的数据服务经验以及海量标品数据集积累,持续获得国内外头部科技企业的数据需求订单;另一方面,在国家“人工智能+”战略指引下,以运营商为代表的国央企加速AI布局,重点投入多模态基座模型研发和垂直领域应用落地,为公司带来新的业务增长点。与此同时,去年公司新拓展的东南亚数据交付基地已进入稳定运营阶段,该基地不仅成功打开了海外定制化服务市场,更为海外业务贡献了显著的增量收入。以上因素共同推动,公司2025年上半年度营业收入、归属于母公司所有者的净利润、归属于母公司所有者的扣除非经常性损益的净利润同比均实现显著增长。

    报告期内,公司实现营业收入1.57亿元,较上年同期增长69.54%;归属于母公司所有者的净利润380.46万元,较上年同期增加813.65%;归属于母公司所有者的扣除非经常性损益的净利润为98.35万元,较上年同期增加465.94万元;经营性现金流净额-3375.12万元,较上年同期下降315.29%。截至报告期末,公司总资产为8.17亿元,较期初增加1.03%;归属于母公司的所有者权益为7.29亿元,较期初减少1.94%。2025年上半年公司具体经营情况如下:

    (一)核心业务板块经营情况

    1.境外训练数据业务

    2025年上半年,在全球人工智能产业加速渗透及多模态大模型需求爆发的背景下,AI训练数据服务市场持续扩容。在此趋势下,公司海外业务实现收入7351.14万元,同比增长68.24%,继续保持强劲增长态势。

    从业务驱动因素来看,一方面,以全球头部消费电子、企业级SaaS应用软件公司等为代表的国际客户,为支撑其全球化业务拓展,持续加大对多语种语音、平行语料等高质量训练数据的投入力度。公司凭借在语言研究领域长达二十年的技术积累,以及覆盖智能语音、自然语言等多个技术方向的标准化数据集产品优势,进一步赢得了境外客户优选。另一方面,公司在东南亚新建的数据交付基地已进入稳定运营阶段,该基地不仅成功打开了当地定制化服务市场,更为海外业务贡献了显著的增量收入,未来该基地也将成为支撑公司全球化战略的重要支点。

    此外,为进一步提升全球市场竞争力,报告期内,公司持续优化国际化布局。在市场拓展方面,进一步强化北美、欧洲及日韩销售团队,深化本地化服务能力;同时,通过参与CVPR、ACL、Tech-AD等全球顶级AI学术会议,提升技术品牌认知度和影响力;同时,重点加强海外交付能力建设,通过拓展菲律宾数据交付基地的团队规模和服务范围,为国际客户提供更加高效、合规的数据服务支持。未来,这些战略布局也将为公司把握全球AI产业发展机遇、实现更高质量的国际化发展奠定坚实基础。

    2.境内训练数据业务

    2025年上半年,随着人工智能技术在各行业的深度渗透和垂直场景的加速落地,AI产业呈现出明显的"场景纵深化"发展趋势。在此背景下,公司境内业务实现营业收入8318.45万元,同比增长70.70%,展现出强劲增长态势。

    从市场需求结构来看,AI技术应用主体呈现多元化发展趋势。首先,以运营商为代表的国央企积极响应国家"人工智能+"战略部署,加快推进多模态基座大模型研发,并在政务、法律、教育等重点领域进行布局;其次,以短视频平台、本地生活服务平台为代表的头部科技互联网企业开始将AI技术提升至核心战略地位,重点布局多语种语音交互、智能内容生成等关键技术,持续优化用户体验和内容创作效率,为业务创新和国际化发展提供技术支撑。同时,传统科技企业持续加大AI技术研发投入,重点强化多模态基础模型能力建设,特别是在多语种处理等关键领域深化布局,夯实全球化发展的技术基础。公司基于在智能语音、自然语言、计算机视觉等领域多年的技术积累,以及构建的近1800个标准化数据集的专业产品体系,已成为多家行业领先企业的核心数据服务供应商,市场竞争优势进一步巩固。

    3.数据要素业务

    2025年上半年,随着《"数据要素×"三年行动计划》深入实施和各地数据要素市场化配置改革加速推进,我国数据要素产业迈入高质量发展新阶段。

    在这一背景下,国家数据局指导成都、长沙、保定等7个城市建设数据标注基地,先行先试探索数据标注产业发展经验。数据标注基地建设成为推动数据要素价值释放的关键举措,旨在解决AI产业发展中的数据质量、标准统一和要素流通等核心问题。为支持国家数据产业发展战略,公司充分发挥在数据服务领域的技术积累,提供覆盖数据全生命周期的综合解决方案。在数据汇聚环节,公司与地方政府合作共建高质量数据集,整合公共数据和行业数据资源;在生产加工环节,建设数据可信空间,提供数据处理平台和运营服务;在开发利用环节,基于高质量数据开展模型训练;同时为中小企业提供数据治理服务。截至目前,公司已与3个承担数据标注基地建设任务的城市:成都、长沙、保定等地方政府成立合资公司,并与内蒙古呼和浩特签署战略合作协议,聚焦当地乳业、草种、文旅等特色产业,共建高质量数据集,有效驱动当地产业的数字化转型。此外,公司正积极拓展与上海、广州、宜宾等十余地的战略合作,进一步完善标注基地的全国性业务布局。

    在支撑地方政府文旅产业数字化方面,公司也已取得阶段性成果:已启动彭州、长沙等地高质量文旅视频数据集的建设工作,重点为智能导览等应用场景提供专业数据支撑。此外,公司深度参与华为+陕文投集团合作的陕西文旅示范项目,充分发挥在数据服务领域的技术优势,重点支持高质量文旅数据集建设和AI文旅垂直大模型开发,推动"AI+文旅"场景的规模化应用,为陕西文旅产业数字化转型提供全方位数据支撑和解决方案。与此同时,公司还参与"京西智谷数字人平台及配音平台项目",提供2000余个数字人形象,通过数字人技术助力北京门头沟区乡村振兴和文化传播。

    在区域合作方面,公司立足广西作为中国—东盟数字合作枢纽的战略定位,全面深度参与中国—东盟人工智能创新合作中心建设并与地方政府联合成立数字工坊,凭借在东盟小语种数据处理以及OCR预识别算法上的技术优势,有力支持东盟语料库建设。

    通过参与国家级数据标注基地建设和区域数字合作项目,公司不仅实现了数据要素业务市场空间的持续拓展,也为推动我国数据要素市场高质量发展注入了新动能。未来,公司将继续深化在数据汇聚、处理、应用等环节的技术创新,致力于构建更加完善的数据要素产业生态体系。

    (二)核心技术能力建设情况

    2025年上半年,按照技术+产品双轮驱动的定位,公司继续保持有竞争力的研发投入强度,不断提升技术和平台工具先进性、在大模型数据处理技术方向进行积极探索储备、巩固标准化数据集产品储备、增厚语音语言学基础研究领先性,持续巩固公司核心竞争力。报告期内,公司研发费用共计2956.45万元,占当期营业收入的18.87%。截至报告期末,公司研发人员数量为58人。

    1.算法及平台能力建设、大模型数据处理技术持续探索储备

    报告期内,公司持续加大基础研发投入力度,重点提升人工智能基础算法、一体化数据处理平台及前沿技术研究等领域的核心能力,持续推动大模型数据服务的迭代升级,并形成了一定的代表性成果:

    1.1算法

    公司在智能语音、计算机视觉、自然语言处理等领域的预标注算法上持续深耕布局,同时,在面向智慧文旅场景的多模态大模型能力研究、面向数字人场景的基础能力研究、智能驾驶、大模型训练数据清洗与自动化标注等垂直领域取得显著进展。面向智慧文旅场景的多模态大模型能力研究主要包括:文旅场景的语音合成大模型、文旅场景视觉大模型、文旅场景的LLM大模型训练与微调,并完成主流国产算法的模型推理适配工作。面向数字人场景的基础能力研究主要包括:图片数字人算法、视频数字人算法的研发和部署,以及3D数字人前沿算法的调研与实践;智能驾驶主要聚焦在以下领域的算法研发:4D点云重建与2D厘米级自动化映射、预刷红绿灯算法、亿级点云地面检测算法、通用3D目标检测模型升级等;在大模型训练数据清洗与自动化标注研发领域内,研发老挝语OCR与语料自动化清洗算法,并在项目中取得良好效果;针对语音大模型训练数据,完成语音数据自动化清洗pipeline的升级,融合10+种模型算法对多种类型的数据进行自动化清洗与标注;针对LLM大模型训练数据,完成题库、ITN/TN等多种语料清洗pipeline搭建与优化。

    1.2平台

    公司持续在数据处理平台进行规模化投入,重点提升语音、视觉等核心领域的采集及标注环节处理效率。同时,为完善产业生态布局、增强内部管理效率,公司新增建设人工智能数据服务实训和AI数据生产管理两大专业平台,具体情况如下:

    智能语音平台:声优工厂平台形成规模化声优资源池,覆盖中、英、日、韩4大语系36种音色标签。通过性别校验等算法模型,大幅提升试音通过率,且单条试音审核时长压缩10倍以上;自研流程引擎让项目平均周期缩减一半。公司自研的多模态推荐模型,可实现候选声优的秒级反馈,匹配精准度提升至90%以上。副语言&音素边界标注平台实现全流程自动化升级,通过集成语音识别等算法模块,将标注时间缩短约一半。构建了精细化权限治理体系,该体系可适配多场景任务需求,且使跨角色协同效率提升50%以上。

    计算机视觉平台:Bev视角点云、2D图标注平台攻克多源数据技术难关,自研时空配准引擎实现多源点云亚像素级对齐;轻量化拓扑压缩算法在保持99.5%几何精度下,通过点云压缩技术,将训练加载时间缩短80%。此外,采用风格迁移网络实现4种天气、5个时段无缝切换,兼容主流行业标准,大幅降低客户迁移成本。标注工具效率较传统提升近5倍,支持超过1000个标注员并发作业,日均可产出50万张AI训练样本,并已在智能驾驶为代表的三大场景应用落地。

    面向人工智能数据服务的实训平台:旨在为AI产业链提供高质量的人才培养方案,包括理论体系建设、课程学习、上机实训、课后练习、在线考试、资格认证、人才推送等重要模块。公司已基本完成整体架构设计,并形成基础理论和部分模态实战课程的课件。

    面向人工智能数据生产的管理平台:为应对人工智能数据业务不断发展所带来的项目管理、商务管理、财务管理等诸多管理能力不断提升的需求,公司整合既有工具模块、优化现存平台,建设新一代面向人工智能数据生产的管理平台。该平台包括不少于20个重要功能模块的建设任务。公司上半年已完成包括客户管理、合同管理等重要模块的建设任务。部分能力已在公司内部落地,并支撑业务加速发展。

    以上平台均以技术创新构建壁垒,兼具规模化能力与商业化成果,为持续增长奠定基础。

    2.标准化数据集产品

    标准化数据集产品,是公司区别于众多竞争对手以定制化服务为主的特有商业模式,也是公司核心竞争力之一,标准化产品是公司基于未来行业需求的研判,在市场需求出现之前,预先开发的数据集,具有即用即取的特点,可帮助客户大幅缩短模型研发周期并有效降低数据投入成本。同时,由于产品本身的知识产权由公司享有,具有一次性研发生产、可重复多次销售的特点,因此可更好帮助公司实现未来可持续性销售、以及毛利空间提升。

    因此,为更好适应行业发展需求,公司2025年上半年在产品研发方面持续投入,用于开发覆盖智能语音、计算机视觉以及自然语言等传统深度学习以及大模型领域的相关数据集产品。截止报告期末,公司新增研发超70个训练数据集产品,自有知识产权的训练数据产品储备达到1790个,尤其在多语种语音对话、多语种OCR、多音色多情感数据集等方面积累了更丰富的标准化产品资源,并建成包括“双工数据集”、“视觉大模型(图像-文本)预训练及微调数据集”等在内的多领域大模型数据集。截止报告期末。

    截止报告期末,公司已向下游客户提供了累计超过10000次/个定制或标准化训练数据集,并已应用于个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等22类创新应用领域,赋能人工智能技术与实体经济的深度融合。

    3.语音语言学能力

    随着全球化扩张成为头部AI企业收入增长的重要引擎,多语种数据的作用和价值更加凸显。为更好满足客户多语种拓展需求,公司持续保持语音语言学研究力度,在语音语言学基础研究方面,公司不断丰富合作语言学家团队资源,成员遍布世界各地的学校及研究机构,在语音语言学领域具备丰富经验和技术储备。截止报告期末,公司已经拥有超过240个语种/方言的覆盖能力,不仅包括英、法、德、意、西、日、韩等常见语种,还包括东南亚、一带一路等国家地区的罕见小语种,尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时,公司建立了成熟的发音词典构建流程,公司已积累下近140个多语种的发音词典,覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种,累计词条数超过1200万条,可支撑构建高质量的智能语音、以及多模态训练数据,是公司的主要竞争壁垒及核心技术之一。

    (三)其他综合能力建设情况

    1.数据安全及合规

    2025年上半年,中央和地方出台了一系列有关数据要素、数据安全的法律法规和政策,对企业的数据安全水准和能力提出了更高要求,也为企业在数据要素、人工智能等领域的发展提供了新的机遇。公司一直以来非常重视数据安全管理以及相关能力的提升,并将其作为把握新发展机遇所必须练好的“基本功”。报告期内,公司积极参与行业发展,提出立法建议、参与行业调研,数据安全能力获得广泛认可。

    2.供应链体系

    2025年上半年,公司围绕AI大模型在垂直领域的深度应用,全面升级供应链生态体系。在产业布局方面,公司深度整合产学研资源,重点布局医疗、金融、教育、美学等专业领域,通过与行业权威机构合作,构建了覆盖诊断、智能投顾、合规风控、数字版权等场景的专业资源池,显著提升了供应链的行业适配性和专业壁垒。

    公司在全球化资源网络建设方面取得重要突破:通过海外数据基地建设和供应商资源拓展,已覆盖49万终端资源,涉及173个国家和地区及超过250种外语种,大幅提升全球数据服务的响应能力。

    此外,公司通过技术创新驱动供应链管理效能提升:通过知识图谱与区块链技术融合,实现跨领域资源的智能匹配与全流程可信溯源;依托动态标签体系和智能算法,完成需求线上化、结算线上化管理;基于精细化成本模型与实时化系统,实现订单处理、资源配置的全链路数字化,为可持续产能扩张奠定基础。

    3.人力资源

    报告期内,公司完成销售、生产、研发体系的绩效管理机制优化,并对内部反馈机制及奖金核算机制进行迭代,以期增强绩效牵引力实现更加公平和富于激励性的管理效果。上半年公司组织多种类专项培训及人才发展项目,在大模型领域的探索与应用进行广泛深入的内部交流,组织销售、生产、职能等多体系的软技能培训,对应届高潜毕业生、新锐力量、中坚力量、中高层管理人员采取不同的梯队建设规划,以保障人才队伍的不断夯实。文化建设方面,强化高度敬业和持续创新文化,进行榜样之星等多样化的文化倡导和活动辐射,打造更加尊重信赖和追求卓越的组织基因。同时在人才引进方面,启动海外人才招募、研发专项人才和高潜毕业生吸引计划,引入多名欧美同业专家、优质研发人员、及卓越背景应届毕业生,充实销售、研发及项目交付队伍的人才密度,发展健康、可持续、多元化的人才队伍。

    三、报告期内核心竞争力分析

    (一)核心竞争力分析

    1.研发优势

    公司拥有同行业具有竞争力的综合研发实力,截至报告期末,公司研发团队规模为58人,研发能力全面覆盖平台工具开发、算法研究、产品设计等多条主线。公司核心研发人员均曾服务于全球顶尖科技企业或毕业于名校,组成了公司坚实的研发领导核心力量。同时,多年来,公司积累了较为完备的综合性、一体化数据处理平台及工具体系,覆盖智能语音、计算机视觉、自然语言等全业态领域,可服务于市面上绝大多数数据处理场景需求,包括但不限于智能驾驶、智能家居、个人助手、内容生成等。公司还设置了专门的产品研发部门及AI+研发部门,可前瞻性挖掘和布局新兴市场需求,抢占市场先机。此外,基于公司在训练数据领域多年积累下的大量、多元化数据以及数据处理经验,通过算法平台团队与数据业务团队无缝衔接,公司可更好完成预识别算法性能提升,实现少量数据注入->算法训练->标注员反馈->模型生成->处理大量数据的自闭环体系,助力公司做大规模、提升效率、降低成本。同时,20年数据行业的从业经验积累,使得公司具备较强的数据生产工程化能力,可助力公司大幅缩短数据研发及生产周期,为公司抢占市场提供了有力支撑。上述因素共同驱动公司构建较高的行业技术壁垒。

    2.产品优势

    通常来说,标准化数据集产品具有可即时获取、价格相对优惠等特点,因此市场需求旺盛。

    但由于标准化数据集产品是先于客户需求形成,需要数据服务商具备较强的市场趋势前瞻能力、以及财务实力进行提前投入,因此行业中具备标准化数据集产品规模化生产能力的服务商较为有限,该方向具备较高竞争壁垒。

    对于公司而言,标准化训练数据集产品的知识产权由公司享有,具有一次性研发生产、可重复多次销售的特点,可显著助力公司毛利水平提升,实现训练数据产品的规模化效应,因此也是公司区别于众多竞争对手的一个优势亮点。

    公司基于20年数据服务经验、以及对客户需求的深刻理解,持续开拓标准化数据集,自有知识产权的训练数据产品储备达到1790个,全面覆盖智能语音、计算机视觉、自然语言等多条业务线。这些高质量数据集可全面支持智能客服、个人助手、数字人等前沿AI应用场景的研发落地。特别值得一提的是,我们的标品数据已支持247种语言/方言,能够充分满足全球AI企业的多语言需求,为客户的国际化战略提供强有力的数据支撑。

    3.语音语言学能力优势

    随着境外客户全球化扩张以及境内客户出海成为新的行业发展趋势,多语种能力成为数据服务领域的核心竞争力之一,而语音语言学储备则是实现多语种拓展的重要前提。经过20年积累,公司已沉淀下深厚的语音语言学基础研究成果,并已将其运用至构建高质量的智能语音、以及多模态训练数据。在语音语言学基础研究领域,公司拥有丰富的多语种语言学家团队资源积累和多语种发音词典积累,以及不断创新的发音词典构建技术和流程技术。截止报告期末,公司已经拥有超过240个语种/方言的覆盖能力,不仅包括英、法、德、意、西、日、韩等常见语种,还包括东南亚、一带一路等国家地区的罕见小语种,尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时,公司已积累下近140个多语种的发音词典,覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种,累计词条数超过1200万条,可支撑构建高质量的智能语音、以及多模态训练数据,是公司的主要竞争壁垒及核心技术之一。

    4.数据安全及合规能力优势

    海天瑞声自成立之初即把数据安全、数据合规视为生命线,公司在多年的数据风险识别和管理实践中,已经形成了较为成熟的安全、合规管理体系。资质方面,公司拥有ISO27001信息安全管理体系认证、ISO27701隐私信息管理体系认证、国家信息系统安全等级保护三级备案、北京市规划和自然资源委员会行政许可乙级测绘资质等。行业参与方面,公司入选中共中央网络安全和信息化委员会办公室“人工智能企业典型应用案例”,相关业务和数据安全实践受到《人民日报》等权威媒体报道和关注。公司为中国信通院数据安全推进计划成员单位,董事兼总经理李科连续入选该计划数安智库专家,其所参与、领导的公司数据安全工作,受到《北京日报》等权威媒体报道。此外,公司积极参与行业发展,入选国家标准《信息技术人工智能术语》核心参编单位、《人工智能数据标注平台技术要求和测试方法》核心参编单位,数据安全能力获得认可并产生广泛、积极的行业影响。

    (二)核心技术与研发进展

    1、核心技术及其先进性以及报告期内的变化情况

    公司高度重视并坚持科技创新,通过持续的研发投入积累形成了12项核心技术,覆盖基础研究、平台工具、训练数据生产三个层次,应用于训练数据生产的设计、采集、加工、质检全流程之中。

    (1)基础研究层面,报告期内,公司持续在智能语音、计算机视觉、自然语言进行技术拓展,同时在多模态文旅大模型、数字人算法、智能驾驶、大模型训练数据清洗与自动化标注等垂直领域取得显著进展。多模态文旅大模型主要包括:文旅场景的语音合成大模型、文旅场景视觉大模型、文旅场景的LLM大模型训练与微调,并完成主流国产算法的模型推理适配工作。数字人算法主要包括:图片数字人算法、视频数字人算法的研发和部署,以及3D数字人前沿算法的调研与实践;智能驾驶主要聚焦在以下领域的算法研发:4D点云重建与2D厘米级自动化映射、预刷红绿灯算法、亿级点云地面检测算法、通用3D目标检测模型升级等;在大模型训练数据清洗与自动化标注研发领域内,研发老挝语OCR与语料自动化清洗算法,并在项目中取得良好效果;针对语音大模型训练数据,完成语音数据自动化清洗pipeline的升级,融合10+种模型算法对多种类型的数据进行自动化清洗与标注;针对LLM大模型训练数据,完成题库、ITN/TN等多种语料清洗pipeline搭建与优化。

    (2)在平台工具层面进展如下:

    智能语音平台:声优工厂平台形成规模化声优资源池,覆盖中、英、日、韩4大语系36种音色标签。通过性别校验等算法模型,大幅提升试音通过率,且单条试音审核时长压缩10倍以上;自研流程引擎让项目平均周期缩减一半。公司自研的多模态推荐模型,可实现候选声优的秒级反馈,匹配精准度提升至90%以上。副语言&音素边界标注平台实现全流程自动化升级,通过集成语音识别等算法模块,将标注时间缩短约一半。构建了精细化权限治理体系,该体系可适配多场景任务需求,且使跨角色协同效率提升50%以上。

    计算机视觉平台:Bev视角点云、2D图标注平台攻克多源数据技术难关,自研时空配准引擎实现多源点云亚像素级对齐;轻量化拓扑压缩算法在保持99.5%几何精度下,通过点云压缩技术,将训练加载时间缩短80%。此外,采用风格迁移网络实现4种天气、5个时段无缝切换,兼容主流行业标准,大幅降低客户迁移成本。标注工具效率较传统提升近5倍,支持超过1000个标注员并发作业,日均可产出50万张AI训练样本,并已在智能驾驶为代表的三大场景应用落地。

    面向人工智能数据服务的实训平台:旨在为AI产业链提供高质量的人才培养方案,包括理论体系建设、课程学习、上机实训、课后练习、在线考试、资格认证、人才推送等重要模块。公司已基本完成整体架构设计,并形成基础理论和部分模态实战课程的课件。

    面向人工智能数据生产的管理平台:为应对人工智能数据业务不断发展所带来的项目管理、商务管理、财务管理等诸多管理能力不断提升的需求,公司整合既有工具模块、优化现存平台,建设新一代面向人工智能数据生产的管理平台。该平台包括不少于20个重要功能模块的建设任务。公司上半年已完成包括客户管理、合同管理等重要模块的建设任务。部分能力已在公司内部落地,并支撑业务加速发展。

    以上平台均以技术创新构建壁垒,兼具规模化能力与商业化成果,为持续增长奠定基础。

    2、报告期内获得的研发成果

    报告期内,公司新获得软件著作权1项。截至2025年6月30日,公司共获得专利授权41项,获得登记的软件著作权181项。

    四、报告期内主要经营情况

    报告期内,公司实现营业收入1.57亿元,较上年同期增长69.54%;归属于母公司所有者的净利润380.46万元,较上年同期增加813.65%;归属于母公司所有者的扣除非经常性损益的净利润为98.35万元,较上年同期增加465.94万元;经营性现金流净额-3375.12万元,较上年同期下降315.29%。截至报告期末,公司总资产为8.17亿元,较期初增加1.03%;归属于母公司的所有者权益为7.29亿元,较期初减少1.94%。

以上内容为证券之星据公开信息整理,由AI算法生成(网信算备310104345710301240019号),不构成投资建议。

微信
扫描二维码
关注
证券之星微信
APP下载
相关股票:
好投资评级:
好价格评级:
证券之星估值分析提示海天瑞声行业内竞争力的护城河一般,盈利能力一般,营收成长性较差,综合基本面各维度看,股价偏高。 更多>>
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备310104345710301240019号。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-