证券之星消息,近期虹软科技(688088)发布2025年半年度财务报告,报告中的管理层讨论与分析如下:
发展回顾:
一、报告期内公司所属行业及主营业务情况说明
(一)所属行业发展情况
1、所属行业
根据《国民经济行业分类》(GB/T4754-2017),公司所属行业为“I65软件和信息技术服务业”中的“I6513应用软件开发”。根据中国上市公司协会发布的《中国上市公司协会上市公司行业统计分类指引》,公司所属行业为“信息传输、软件和信息技术服务业-软件和信息技术服务业”,行业代码为“I65”。
公司从事计算机视觉技术算法的研发和应用,主要产品有移动智能终端视觉解决方案、智能汽车及其他AIoT智能设备视觉解决方案、智能商拍解决方案,根据公司主要产品功能及服务对象的特点,公司所属行业为计算机视觉行业,属于软件和信息技术服务业。
根据国家发改委公布的《战略性新兴产业重点产品和服务指导目录2016版》,公司属于“新一代信息技术产业”。
2、所属行业的发展情况、基本特点
随着人工智能技术日益成熟,其与各行各业的协同发展日趋加速,“人工智能+”已从理念共识转化为产业实践的核心路径。作为底层支撑技术,视觉人工智能广泛应用于各类人工智能细分领域,以下是与本公司相关的主要领域发展状况:
移动智能终端细分领域
2025年上半年,全球智能手机市场在宏观经济不确定性及关税政策影响下,仍实现连续两个季度正增长,高端市场需求稳定及AI功能渗透成为主要驱动因素。根据市场研究机构Counterpoint统计数据,2025年第一季度,全球智能手机市场出货额和出货量均同比增长3%,平均售价(ASP)同比增长1%至364美元,创下第一季度历史新高;第二季度,全球智能手机出货量同比增长3%,出货额同比增长10%,ASP同比增长7%至347美元,出货额首次在第二季度突破1000亿美元。
在AI与XR技术融合的前沿领域,AI眼镜等智能终端发展迅猛,开启人机交互新模式。AI智能助理系统整合多模态数据,构建“全息感知-实时解析-智能响应”技术闭环,重塑用户体验。国际数据公司(IDC)于2025年6月发布的《全球智能眼镜市场季度跟踪报告》显示,2025年第一季度全球智能眼镜市场出货量达到148.7万台,同比增长82.3%。细分来看,全球音频和音频拍摄眼镜市场出货量达到83.1万台,同比增幅高达219.5%;AR/VR市场出货量为65.6万台,同比增长18.1%。在该报告中,IDC预计2025年全球智能眼镜市场出货量将达到1451.8万台,同比增长42.5%。具体到细分领域,音频和音频拍摄眼镜出货量预计为882.8万台,同比增长225.6%;而AR/VR设备出货量预计为569.0万台,同比下降23.9%。
智能汽车细分领域
2025年上半年,在以旧换新政策的持续显效带动下,内需市场明显改善,对汽车整体增长起到重要支撑作用。中汽协数据显示,2025年上半年,我国汽车产销分别完成1562.1万辆和1565.3万辆,均同比实现两位数增长。其中乘用车产销分别完成1352.2万辆和1353.1万辆,同比分别增长13.8%和13%;商用车产销分别完成209.9万辆和212.2万辆,同比分别增长4.7%和2.6%。上半年,中国汽车出口总量308.3万辆,同比增长10.4%;国内销量1257万辆,同比增长11.7%,成为拉动市场整体增长的核心动力。
近年来,海外多个主要经济体针对汽车安全推出多项强制性标准,覆盖网络安全、功能安全及特定技术等领域。2025年上半年,国内智能汽车领域也迎来法规密集调整期,推动行业从“技术驱动”向“合规优先”转型。4月,交通运输部公告2025年第21号对《营运客车安全技术条件》(JT/T1094)等4项营运车辆行业标准部分条款进行修订,其中优化调整了ESC、AEBS等安全装置的配备范围,明确针对新申请进入道路运输市场的达标车型。此次修订将使AEBS辅助驾驶功能成为商用车法规强制要求。5月,《轻型汽车自动紧急制动系统技术要求及试验方法》强制性国家标准征求意见稿发布,将自动紧急制动系统(AEBS)从推荐性标准升级为强制性要求,适用范围从M1类乘用车扩展至N1类轻型载货汽车,新增多场景测试验证。6月,全国标准信息公共服务平台公示了关于征求《智能网联汽车组合驾驶辅助系统安全要求》拟立项强制性国家标准项目意见的通知,通过制定强制性国家标准,约束组合驾驶辅助系统功能表现,促进提升产品安全性能,减少由于产品性能缺陷导致的安全事故,将有助于提升我国道路交通整体安全水平,实现标准内容对于组合驾驶辅助系统产品形态的全面覆盖。
3、主要技术门槛
视觉人工智能属于高知识密集型领域,有较高的技术门槛,公司主要为移动智能终端、智能汽车等智能设备以及商业拍摄领域提供视觉人工智能解决方案,在前述领域的主要技术门槛包括:
(1)端计算和边缘计算技术的积累
边缘计算极大程度上解决了物联网背景下集中式运算架构中的带宽和延迟两大瓶颈问题,主要难点在于低资源的嵌入式平台环境的开发能力,基于移动终端的边缘计算具有巨大的应用价值,但是受限于移动终端有限算力,诸多企业望而却步。
公司自2003年开始便明确了在嵌入式设备研发相关视觉人工智能技术的发展方向,在边缘计算技术领域积累深厚,多年来建立了全面、复杂的多平台适用的底层嵌入式开发库。公司积累的算法具有高度的紧凑性、稳定性以及易调用性,可以在高性能、有效大幅降低资源消耗的情况下实现高精度运行。
公司长期专注于嵌入式设备算法的研究与开发,多年来积累了大量基于端设备的视觉人工智能算法开发经验。目前公司基于端设备的视觉人工智能算法适用性高、运行稳定,可以在边缘侧发起高效的运算,通过诸如智能手机、笔记本电脑、智能可穿戴等设备实现高效的图像优化、识别与检测等功能。公司的移动智能终端视觉解决方案、智能汽车及其他AIoT智能设备视觉解决方案等业务均是从边缘侧发起运算,在智能手机、笔记本电脑、智能可穿戴设备、汽车和各类AIoT设备上实现各类视觉人工智能的功能。
(2)视觉人工智能技术的层次积累
在数码相机以及手机功能机时代,公司就开始专注于视觉人工智能技术的研发与应用,公司主要算法技术都经过了长时间的锤炼,从基本的黑白小分辨率图像的摄取、增强、编辑、检测识别到高清大图像、视频的实时处理均打下了坚实的基础,创造了有利和领先的条件。
公司掌握的视觉人工智能算法技术具有通用性和延展性。多年来,公司积极致力于将视觉人工智能算法与行业应用相结合,凭借先进的科研力量、强大的产品开发能力以及卓越的工程实施能力,公司快速将视觉人工智能算法技术落地为成熟的解决方案,并进一步将应用领域从智能手机扩展到智能汽车、智能可穿戴、智能家居、智能零售等多个行业,助推行业升级。此外,公司基于自身深厚的技术积累,能够为上述行业快速提供高性能、高效率、硬件平台适应性强、功耗控制优良的解决方案,大大降低各类客户的产品使用先进技术的门槛,帮客户提升产品竞争力,助力视觉人工智能和人工智能相关应用的普及。
(3)工程落地能力
虹软创立至今,除不断积累和发展自身技术、掌握持续开发、迭代与硬件更加匹配的算法的能力,还一直致力于与核心产业链内主流公司开展长期、广泛的合作。公司与高通、联发科等各主流芯片公司建立了长期稳定的合作关系,在研发中持续合作交流,深入了解平台硬件特性并为其针对性优化,共同开发核心功能,不断提高视觉人工智能技术算法产品与移动芯片的适配性。公司还与索尼传感器、三星半导体、格科微、OmniVision、舜宇光学、思特威、锐视智芯等业内核心器件合作伙伴建立了业务交流或合作关系,在项目早期就针对特定相机或硬件做算法适配和调优。针对智能终端的芯片平台,公司具备针对CPU、GPU、DSP和NPU等各个算力单元的强大优化能力。结合各硬件算力单元的能力和算法模块的算力需求,公司具备的异构计算优化能力能够从系统层面更有效地优化性能、降低功耗。得益于此,除核心技术能力突出外,公司同时具备优势明显的工程落地能力,在客户提出技术需求后,能更好地联合和发挥在相机模组、软硬件平台、产线、算法等多方资源合作优势,进而提供效果好、能耗低、效率高、硬件平台适应性广并能够快速落地的解决方案。
(二)主要业务、主要产品及其用途
公司专注于计算机视觉领域,为行业提供算法授权及系统解决方案,是全球领先的视觉人工智能企业,始终致力于视觉人工智能技术的研发和应用,坚持以技术创新为核心驱动力,在全球范围内为智能设备提供一站式视觉人工智能解决方案。
公司拥有丰富的针对智能手机等移动智能终端以及智能汽车的视觉算法产品线,主营业务收入来源于自主研发核心技术的授权许可使用。目前主要客户包括三星、小米、OPPO、vivo、荣耀、Moto等全球知名手机厂商以及国内主要的自主品牌、部分合资及外资品牌汽车主机厂商。
在智能手机领域,依托多年研发积累,公司可以提供目前市面上大部分主流智能手机视觉人工智能算法产品,包括单/双/多摄摄像头在各种场景下的拍摄和高质量成像、深度摄像头在各种场景下的拍摄和高质量成像、潜望式长焦摄像头无级变焦、3D建模、全景、SLAM、AR/VR、人脸解锁、超像素无损变焦、人体驱动等重要核心功能。在笔记本电脑领域,公司从画质、隐私、美颜等方面来提升用户视频会议体验。通过视频去噪、提升动态范围来改善会议时的画质;通过背景虚化、换背景实现对用户隐私进行保护;通过人像美颜、人体自动居中、人脸细节恢复和增强、眼镜去反光等技术提升视频会议效果。
在AI-XR领域,公司大力拓展AI眼镜算法研究与应用,可以提供目前市面上绝大部分主流AI眼镜视觉人工智能算法产品,包括在各种场景下的检测、拍摄和高质量成像、智能人脸识别、智能手势识别、眼动追踪等解决方案。同时,还可以辅助AI大模型,提供基于视觉感知的解决方案。另外还提供VR/MR/AR一站式多传感器标定解决方案,头显6DoF跟踪、平面检测、稠密重建、语义分析、深度估计、实时人体/手部分割、实时3DMesh重建等空间感知解决方案,手柄6DoF跟踪、裸手3D手势交互、视线跟踪和虚拟数字人表情驱动、人体驱动等交互解决方案,以及异步时间扭曲、异步空间扭曲、视频透视(VST)等视觉呈现解决方案。
在智能汽车领域,智能行车辅助方面,公司已储备基于前视、周视、环视、后视、夜视摄像头系统的视觉感知算法,可支持ACC、LCC、AEB、ILC等驾驶辅助功能;智能停车辅助方面,公司已构建360°环视视觉子系统,支持2D/3DAVM全景影像,并具备透明底盘、哨兵监测等功能,同时针对自动泊车(APA),已储备视觉感知、超声波-视觉融合及规控算法;舱内驾驶员/乘员视觉安全辅助方面,公司主要在驾驶员安全辅助、乘员安全辅助系统两类产品上针对驾乘安全积累了一系列视觉感知算法,可以提供例如疲劳检测、分心检测、健康监测、身份识别(FaceID)、安全带、安全座椅、危险坐姿、体态类别识别等主/被动安全功能。
在智能商拍领域,公司基于ArcMuse计算技术引擎构建商拍图像和视频生成能力,推出PhotoStudioAI智能商拍云工作室(PSAI)。该平台细分服饰版和商品版,为不同客户群体提供精准化智能商拍服务。PSAI支持AI模特图、AI场景图、AI商品图、AI试衣、AI鞋子上脚、AI商品复色等图片生成,以及AI模特视频生成功能。通过图片和视频内容生成的可控性与表现力有机结合,为商家提供完美的服装等商品展示。同时,PSAI还提供高清尺寸放大、智能抠图、对象擦除、智能补光等AI工具包,为图片和视频生成内容提供智能后期处理工具,满足用户差异化需求。
(三)主要经营模式
1、盈利模式:公司主要盈利模式是将计算机视觉算法技术与客户特定设备深度整合,通过合约的方式授权给客户,允许客户将相关算法软件或软件包装载在约定型号的智能设备上使用,以此收取技术和软件使用授权费用。同时,公司也向客户销售软硬一体视觉解决方案。
2、研发模式:公司主要采取自主研发的模式。研发过程大致分为以下9个步骤:①获取需求信息;②管理层决策研发方向;③搭建研发项目组;④验证研发项目算法,进行项目测试;⑤集体讨论决策项目算法;⑥进行底层算法与实际环境的结合优化;⑦进行实际产品结合测试;⑧产品成熟后路演,选择合适的客户进行测试合作;⑨测试合格后大规模推广。
3、销售模式:公司采用直销的方式,主要向智能手机、智能汽车、笔记本电脑、智能家居、智能零售以及各类带摄像头的AIoT设备制造商销售计算机视觉算法软件及相关解决方案。
4、收费模式:按照业务合同的不同类型划分,公司的计算机视觉算法软件主要收费模式可划分为固定费用模式和计件模式两种模式。①固定费用模式:按合同约定的软件授权期限,收取固定金额的软件授权费用。特定客户在软件授权期限内,针对某款、某系列的特定设备内,可以合法地把含有虹软科技算法技术的特定软件无限量装载在合约限定的智能设备上。②计件模式:在合同约定的软件授权期内,按照客户生产的装载有虹软科技算法技术智能设备的数量进行收费。通常情况下,公司会与客户就不同生产数量区间,约定阶梯价格,保障双方利益。针对软硬一体解决方案,公司目前采用计件模式。
5、采购模式:公司的主要采购内容包括研发、测试和运营所需的各类硬件设备、软件、服务,以及产品解决方案所需的物料等。根据需求部门的请购申请,采购部门按照《采购管理制度》的要求,执行供应商选择、采购合同签订、合同执行跟踪、采购付款申请等流程。针对软硬一体解决方案,由公司进行硬件的设计并购买相应部分核心部件后,委托第三方进行组装生产。
(四)市场地位
目前视觉人工智能市场已初步形成“头部集聚+垂直深耕”的竞争格局,技术迭代加速、行业渗透深化以及政策引导等因素仍在持续推动市场动态变化。核心技术积累、产品化能力、产业生态链合作均构成各垂直行业的核心壁垒。公司是计算机视觉行业领先的算法服务提供商及解决方案供应商,是全球领先的计算机视觉人工智能企业。
公司坚持深耕计算机视觉算法技术,深化各行业布局的发展战略,逐步将计算机视觉算法技术的应用扩展至更多的智能终端设备领域。除本公司外,行业中国内企业主要有商汤科技、旷视科技,国外企业主要有SeeingMachines、Mobileye、Cipia、Smarteye。
在智能手机领域,公司为客户提供全栈视觉人工智能解决方案,是全球最大的智能手机视觉人工智能算法供应商之一,大部分智能手机视觉解决方案达到国内外先进水平,多数新创技术在行业内属于技术首发。公司主要客户包括三星、小米、OPPO、vivo、荣耀、Moto等全球知名手机厂商,据IDC所统计的2019年度至2024年度全球出货量前五的手机品牌中,除苹果公司完全采用自研视觉人工智能算法外,其余安卓系统手机的主流机型均有搭载公司视觉人工智能解决方案。同时,公司与高通、联发科等移动芯片厂商深度合作,针对不同硬件平台优化算法,提升与移动芯片的适配性,并且与豪威、索尼、三星半导体等传感器厂商建立技术交流,形成从底层硬件到终端应用的完整生态链。
在AR/VR/XR领域,公司进行前瞻性布局,从标定、感知、交互和视觉呈现四个维度构建了一套完整的虹软空间计算技术体系,为客户打造了一站式、全方位的产品解决方案。公司在大力更新技术的同时,也与多家业界头部厂商保持密切沟通和交流,持续扩大技术合作生态圈。在AI-XR技术的深度融合进程中,以AI眼镜为代表的智能终端设备正开启人机交互的新范式。公司快速响应AI眼镜市场需求,积极布局AI眼镜影像算法,与多家知名AI眼镜品牌商建立了深度合作关系,根据品牌商的产品定位与市场需求,为其定制化开发影像算法解决方案。目前,公司已成功助力多家AI眼镜公司首款产品发售。
在智能汽车领域,公司为客户提供面向舱内外的VisDrive一站式车载视觉软件解决方案,是国内基于高通智能座舱平台的主流视觉算法供应商。公司客户覆盖了国内主要的自主品牌、部分合资品牌以及外资品牌汽车主机厂商,已经赋能众多客户顺利在相关国家和地区实现产品量产落地,大大加快了新车市场化进程。
公司积极拥抱技术变革,引领计算机视觉技术发展,自成立以来,经历了从浅层模式识别到深度学习,再到大模型驱动的智能计算的多阶段演进。当前,人工智能技术正经历以大模型为核心的范式变革,在政策引领、产业升级与技术跃迁的三重驱动下,垂直行业大模型正重构各产业生态。依托深厚的视觉AI技术积累,以自研ArcMuse计算技术引擎为核心,公司不断推动视觉大模型的技术进步与行业落地。公司于2023年推出PSAI,目前已完成淘宝千牛、1688、抖音抖店、TikTok、京东京麦、拼多多、Shein、亚马逊等平台入驻,成为国内率先完成主流电商平台全覆盖的服务提供商,累计服务数十万商家客户。
二、经营情况的讨论与分析
公司专注于计算机视觉领域,为行业提供算法授权及系统解决方案,是全球领先的视觉人工智能企业,始终致力于视觉人工智能技术的研发和应用,坚持以技术创新为核心驱动力,在全球范围内为智能设备提供一站式视觉人工智能解决方案。
2025年上半年,公司凭借稳扎稳打的举措深耕赛道,在不断筑牢AI核心技术底座的基础上,继续拓展技术与产品的应用场景,实现整体收入与利润的持续双增长,彰显出强劲的发展韧性与持久增长动能。报告期内,公司实现营业收入41034.85万元,同比增长7.73%;实现归属于上市公司股东的净利润8853.61万元,同比增长44.06%。其中,公司移动智能终端视觉解决方案实现营业收入33932.23万元,同比增长2.23%;智能汽车及其他AIoT智能设备视觉解决方案实现营业收入6465.16万元,同比增长49.09%。
公司保持高水平研发投入,为技术创新的持续推进、产品创造的不断突破及行业核心应用的拓展提供坚实保障。2025年上半年,公司研发费用共计19858.59万元,占营业收入的48.39%。截至2025年6月30日,公司研发人员596人,占公司总人数的比例为62.15%,研发人员中硕士及以上学历占比62.58%。
2025年上半年,公司按照既定目标,重点开展并推进了如下工作:
(一)移动智能终端业务
1、智能手机业务
作为移动智能终端视觉解决方案主打产品,TurboFusion技术和产品持续迭代,并加速在全机型市场上的渗透。公司针对不同算力芯片平台持续下沉TurboFusion技术和扩大产品支持范围。通过重构算法架构、精简计算模块、优化数据处理流程等方式,公司进一步提升了影像处理效率并降低系统负载与功耗,确保不同平台机型高频使用影像功能时的稳定续航,特别是在夜景、逆光、长焦等场景上显著改善了画质。
公司TurboFusion视频解决方案实现多项核心优化。针对极端光照场景,公司聚焦用户体验与环境适应性实现多项创新,为极端光照环境下的清晰成像提供保障。针对长时录制场景,公司通过挖掘底层硬件特性、优化数据处理流和计算路径,进一步提升了处理效率、降低高分辨率下的运算功耗。在影调维度,公司结合人眼视觉特性优化色调映射及局部对比度增强算法,使画面在保留细节与动态范围的同时,呈现更自然平滑的影调过渡,增强了电影感与沉浸感。公司TurboFusion星空拍摄整体解决方案完成多模块升级,并在头部客户实现了商业应用,巩固了公司在特殊场景影像算法领域的优势。
在手机影像技术革新中,公司聚焦高倍率变焦场景,基于生成式超分技术的深度优化,实现了画质与处理效能的双重突破。通过端侧大模型对图像结构的智能理解,重建长焦丢失细节,使极限变焦场景下的画面清晰度跨越式提升;重构硬件协作架构,处理效率显著跃升,确保了高倍率拍照的真实性。
2、AI眼镜业务
基于AI眼镜这一创新产品形态,公司正以“技术深耕+生态共建”的双轮驱动战略,系统性拓展多元应用场景,深入挖掘产品潜能,持续增强核心竞争力,稳步拓宽行业边界,释放长期发展价值。
在算法优化方面,公司聚焦复杂环境下的图像处理技术瓶颈,依托先进的图像处理算法与自主研发的深度学习视觉框架,全面提升AI眼镜在视觉感知、影像捕捉与智能识别等维度的处理能力。通过算法与硬件的深度融合,显著强化设备在复杂场景中的视觉交互体验,为拍摄质量优化与AI功能拓展提供坚实技术支撑。在生态协作方面,公司已与高通等头部芯片厂商建立紧密合作,推进自研影像算法与AI眼镜专用芯片的底层适配与性能协同。同时,公司持续优化SDK对系统环境的兼容性,有效降低客户集成门槛,加快产品落地节奏。在商业化进程方面,公司已经与多家头部厂商签约,占据绝对的头部厂商市占率优势,相关产品方案已在多个标杆项目中完成量产落地,并为后续的产品、技术扩展打下良好的基础。
展望下半年,公司将重点围绕产品能力提升、生态资源拓展以及客户导入三大方向深入布局,着力打造场景化解决方案套件,构建横向经验复用机制,在消费级领域持续探索更多应用可能,推动AI眼镜加速从创新概念向规模化商用核心智能终端的转变,为行业发展注入新的增长动能。
(二)智能汽车业务
1、舱内业务(驾驶员/乘员视觉安全辅助)
报告期内,公司在驾驶员/乘员视觉安全辅助领域持续发力,巩固差异化竞争优势,旗下驾驶员安全辅助系统、乘员安全辅助系统等核心产品完成多轮技术迭代与性能提升,并批量出货至海内外客户群体,覆盖国内外整车厂、Tier1及新能源汽车品牌等多元化合作对象。
在全球市场布局上,公司聚焦法规强制要求的主流及关键领域,重点针对以DMS、OMS等核心功能为主体、符合全球汽车安全法规的核心产品,推动其ADDW/DDAW合规认证并开展全球化推广工作。2025年上半年,公司DMS首个内后视镜海外项目正式通过欧盟ADDW认证,满足了欧标区域的量产条件;同时,公司DMS产品在岚图、吉利等品牌的部分海外量产车型项目中,针对ENCAP(欧洲新车安全评鉴协会)安全警告测试取得满分成绩,为后续顺利导入量产项目筑牢了法规合规基础。此外,公司DOMSENCAP2026产品方案目前也正在同步研发,后续将重点推进法规机构的摸底测试认证。
面向舱内的前装软硬一体车载视觉解决方案Tahoe产品已于2025年上半年在欧洲知名豪华品牌车型上完成量产交付,为后续进一步拓展打下坚实基础。第二代基于国产芯片的低成本替代方案也在研发中,已完成初始版本。
在产业协作上,公司与欧洲某舱内传感器全球供应商及Tier1的深度战略合作持续推进,双方联合完成了集成OMS、HOD(脱手检测系统)、CPD(儿童遗忘检测系统)及SRS(安全气囊系统)的传感器融合产品原型开发工作,后续将率先在欧洲市场进行推广。
2、舱外业务(智能停车辅助、智能驾驶辅助)
报告期内,公司加大“舱外”相关领域的投入与资源配置,主推智能停车辅助系统和智能辅助驾驶系统。在技术研发层面,公司舱泊一体解决方案在客户项目上完成POC技术验证,APA产品则通过持续打磨提升场景适应性,已完成雷达融合、自选车位、倒车循迹等泊车全功能开发。
报告期内,公司以“安全合规、平台迭代、量产落地”为主线,稳步推进驾驶辅助系统三大产品线的落地工作。在低算力平台解决方案(SouthLake/WestLake)方面,公司聚焦欧洲强制法规及国内即将推出的AEB强制法规,已完成AEB等关键安全功能的深度测试验证与算法优化。目前,基于低算力平台的演示样车已获得客户高度认可及定点,标志着公司L2级智能辅助驾驶解决方案正式进入商业化落地阶段。在中高算力平台解决方案(EastLake)上,EastLake解决方案成熟度进一步提升,针对舱驾一体新形态完成系统架构升级,并与客户启动了POC项目开发,落地化进程有序进行。在监管合规层面,针对上半年行业高度关注的L2级组合驾驶辅助安全风险,公司第一时间跟踪国家强制标准制定动态,对舱外驾驶辅助产品从传感器配置、功能策略到失效保护机制进行系统性设计调整,同步完成新版软件迭代,确保解决方案的行业竞争力。
3、商用车市场
针对商用车车型及市场特点,公司对软件算法解决方案进一步适配优化:如DMS功能,结合商用车座舱空间大、商用车驾驶员特殊属性及硬件平台低成本等特点,联合Tier1与主机厂深化适配;AVM功能则针对车型多、标定工位不规范、摄像头成本低等问题优化适配。同时,公司将前装优化的软件方案快速移植至后装硬件平台,以满足后装市场安全监管及安装使用便利需求。
4、海外市场战略
报告期内,公司持续推进“海外”市场战略。产品层面,公司聚焦VisDrive、Tahoe、ADAS、TD320、MonoLake等核心产品,积极拓展国际化应用场景,加速其在重点区域市场的落地进程。公司以GSR法规和ENCAP2026标准要求为核心技术导向,继续优化DMS/OMS产品功能规划,增强对海外市场的适配能力,同时强化在智能座舱与安全驾驶相关细分领域的技术沉淀与量产交付能力。市场拓展与渠道建设方面,公司从合作深化、技术推广、本地化布局三个维度协同发力。渠道端,扩大与多家伙伴的合作范围与边界,拓宽市场渗透路径。技术推广层面,持续推进与多家海外知名主机厂商的对接,并通过开展TechDay和Workshop等活动,向客户直观传递技术价值。此外,公司的欧洲业务团队加速了本地化市场推广、技术支持和客户服务体系进程,为拓展欧洲及周边市场、增强本地化运营奠基。
(三)虹软AI视觉,赋能多元场景应用
在AIGC商拍领域,公司PSAI新增支持了AI试鞋、商品换色、高清改尺寸等全新功能,以服饰行业需求为核心,为客户提供更多样、更垂直、更优秀的产品与服务。公司在PSAI市场战略上坚持“应用+服务”双轮驱动,通过SaaS产品服务广大中小电商商家;同时,围绕服饰行业,提供大客户个性化定制服务,通过ArcMuse平台的AI大模型生成工具包为品牌客户提供一站式商拍内容解决方案。PSAI产品已入驻淘宝、1688、抖店、京东、拼多多、Shein、亚马逊等多家主流电商平台服务市场。目前,公司已累计服务中小商家数十万,合作头部服饰品牌客户300余家。
公司积极布局具身智能机器人领域相关技术,进行了核心智能视觉感知、视觉融合IPs(技术引擎)的研发。目前,公司已与全球知名的民用机器人公司建立技术合作。
公司升级了新一代视觉大模型ArcMuse2025V1.1。依托新一代ArcMuse计算技术引擎,深度融合公司在“云+端”层面的工程创新能力,借助集群优化、端侧优化以及数据与知识蒸馏等方式,ArcMuse计算技术正逐步实现对公司PSAI、智能汽车、智能手机、AI眼镜等业务领域的赋能。
(四)质量、合规与信息安全体系建设
在智能汽车业务领域,公司持续构建并完善产品安全合规能力和质量管理体系,围绕“敏捷、融合”的年度主题,进一步提升体系效能与落地能力,夯实在智能汽车核心领域的竞争优势。在信息安全方面,公司不断强化体系构建,并于2025年上半年顺利完成ISO/IEC27001:2022最新版本的换版认证。
2025年上半年,公司在智能汽车产品的功能安全能力建设方面取得关键突破。继2022年功能安全流程取得了ISO26262:2018ASILD级别认证之后,公司AEBFlag软件产品于今年上半年取得由国际知名认证机构SGS授予的ISO26262:2018ASILB级产品级功能安全认证。此外,公司同步推进ISO21448预期功能安全体系的初步构建,针对ADAS产品在非故障状态下因功能局限、环境误判或用户误操作引发的安全隐患,启动相关工作并取得良好进展,进一步补强了公司在智能汽车安全合规领域的技术能力储备。
(五)经营质效继续提升
2025年上半年,公司继续深化业财融合,重点提升财务管理的精细化水平,强化风险管控,优化资源配置,为业务发展和股东回报提供坚实财务保障。公司密切跟踪市场动态,强化动态分级分类的账期管理策略,坚持对客户进行分级分类管理,动态监控客户履约、贡献及现金流状况,并根据业务的市场宏观环境,细化调整账期,平衡风险与收益。公司同步加强票据管理与风险防范,建立并实施应收票据的分类管理机制,通过风险评估与分类,对识别出存在潜在兑付风险的票据,适时采取提前贴现等措施加速资金回笼,有效防范潜在损失。
公司持续优化业财协同与系统支撑,在现有基础上,进一步完善业财数据互通,着重提升供应链信息的可获取性与流转效率,推进销售合同流程的标准化与规范化管理,深化库存供应链系统与财务模块的协同应用,为经营管理提供更及时的数据支持,构建更稳健、高效的经营体系。
公司始终将充裕的现金储备视为技术研发持续投入和抵御经营不确定性的基石,并通过“阶梯式存款+低风险理财”的结构化配置模式提升资金管理综合收益。为应对汇率波动风险,公司适时调整结汇策略,对持有的外币存量进行审慎评估与动态管理,在确保整体资金安全的前提下,更加注重境内外资金在结构化产品及币种组合上的优化配置,以平衡潜在的汇兑损益并追求更优的综合收益率。
三、报告期内核心竞争力分析
(一)核心竞争力分析
1、人才优势
在超过30年的发展历程中,公司磨合出一支以博士为带头人、硕士为骨干的核心研发团队,充分掌握核心技术算法,并进一步落地成为成熟的商业产品。通过长期的潜心学习,公司始终立足于领域内的最前沿,建立和长期保持行业内经验积累和能力上的领先优势。
虹软科技及其下属公司经过30多年的摸索,不断改善形成了一套独有的高效管理模式,基本实现自动化、自驱、自愿的高效运行状态,同时采用“导师制”培养模式,有效减少研发的试错次数。高效的研发管理体系提高了公司的自主创新能力和产品研发速度,提升了公司视觉人工智能技术算法水平。目前,公司拥有良好人才储备并在持续完善,为重要项目的推进奠定了基础。
2、技术积累优势
公司技术积累优势主要体现在端计算和边缘计算技术的积累优势、视觉人工智能技术的层次积累优势、工程落地能力。
虹软自成立以来便致力于计算机视觉技术的研发,技术所应用的终端,从个人电脑、数码相机、智能手机,再发展到智能汽车、AI眼镜、XR3D空间计算头显以及其他AIoT领域,一直与影像产业的发展、消费者的需求和影像科技创新紧密相连。经过数十年的技术、专利和人才积累,公司已全面掌握视觉人工智能及人工智能的各项底层算法技术并不断进行技术演进,掌握包括即时定位与建图、图像语义分割、人体识别、物体识别、场景识别、图像增强、三维重建、虚拟人像动画、虚拟数字人等全方位的视觉人工智能技术。公司所掌握的这些底层技术具有通用性和延展性,在此基础之上,公司构建了不同的组件和产品,并衍生出多种产品应用方案满足相应的细分市场需求。
公司坚持以创新驱动企业发展,持续高水平研发投入,不断打磨视觉人工智能技术能力。截至报告期末,公司拥有专利296项(其中发明专利270项)、软件著作权159项。
3、产业链深度合作优势
公司所涉的消费电子产业与汽车产业,高度依赖产业协同。公司拥有紧密、稳定的产业生态关系,与高通、联发科、格科微、索尼传感器、三星半导体、艾迈斯半导体、OmniVision、舜宇光学、英飞凌等平台、传感器、摄像头模组厂等产业链上下游主流公司开展合作。在智能汽车业务上,除了既有的合作伙伴之外,公司也持续与更多的芯片、相机模组、Tier1等诸多上下游产业链公司形成了相互信赖的合作伙伴关系。
凭借与产业链内主流公司长期、广泛的合作,公司掌握了持续开发、迭代与硬件更加匹配的算法的能力,通过共同研发、持续合作交流,得以在客户提出技术需求后,在最短时间内及时响应,提供低能耗、高效率、硬件平台适应性广的解决方案,保持技术持续处于行业最前沿。
4、客户及品牌优势
公司是全球领先的视觉人工智能算法供应商,客户群体广泛。在智能手机领域,公司主要客户包括三星、小米、OPPO、vivo、荣耀、Moto等全球知名手机厂商,服务范围涵盖全球90%以上的安卓手机品牌。在智能汽车领域,公司方案不仅可满足GBT、C-NCAP、C-IASI、IVISTA等国内法规及行业标准要求,而且还可满足DDAW、ADDW、ISASTU型式认证、E-NCAP、A-NCAP等各项海外法规及行业标准要求。在这一领域,公司已协助众多OEM客户顺利在相关国家地区实现产品量产落地,大大加快了新车市场化进程。在智能商拍领域,PSAI产品已入驻淘宝、1688、抖店、京东、拼多多、Shein、亚马逊等多家主流电商平台服务市场,累计服务数十万大小商家。在AI眼镜领域,公司已成功助力多家AI眼镜公司首款产品发售。优良的客户质量、良好的市场口碑、国际化的品牌认可度、海量历史销售数据,为公司后续业务发展奠定了良好基础。
(二)核心技术与研发进展
1、核心技术及其先进性以及报告期内的变化情况
一、核心技术及其先进性
目前,公司积累了大量视觉人工智能的底层算法,构建了完整的视觉人工智能技术体系。
公司自主研发了人脸分析及识别/人脸美化及修复/人体分析及美化、手势识别/物体识别/场景识别、行为分析、暗光图像增强/超分辨率图像增强/视频画质增强/画质修复、光学变焦、虚化技术、3DAR动画等诸多可应用于智能手机、智能座舱、智能辅助驾驶、笔记本电脑、智能可穿戴设备等终端领域的核心技术。
针对单摄/多摄/TOF/结构光等不同种类的摄像头,公司均可提供相应的3D与AR视觉解决方案,帮助厂商在移动设备上便捷高效地实现落地。为满足各智能终端对于VR/MR/AR应用的需求,公司已经研发并可以直接落地使用的解决方案,包括基于双摄/多摄/TOF/结构光的深度获取和优化,以及基于单摄的深度获取引擎,这些深度数据成为一些上层逻辑应用的核心基础;实现了SLAM中环境Map的构建,物体的3DModeling,视线的检测、跟踪,人体和动作静态、动态姿态的检测和跟踪,解决了实时显示中的延迟等多种问题。为满足智能汽车领域人机交互的需求,公司主要研发了基于红外相机、单摄RGB摄像头、双摄、深摄的交互技术,包括手势交互引擎包、头部动作和口部动作交互引擎、经典表情识别等。
公司在人体分析、人脸识别、人体识别、手势识别、人体美化等技术上,在当前状态下的中段平台达到超过95%的正确率、毫秒级实时性,这些引擎也可以有效鲁棒地支持低端硬件平台,人物属性分析、对象属性分析、多帧多通道质量提升等技术点能达到业界先进的低功耗、高性能、相对强鲁棒的水平。
公司大部分智能手机视觉解决方案达到国内外先进水平,多数新创技术在行业内属于技术首发,能够满足目前市面上中高端智能手机大多数与视觉相关的技术与应用的算法需求,且公司的智能手机视觉解决方案在除苹果之外的主流手机品牌的大部分旗舰机型上获得使用。
二、核心技术报告期内发生的主要变化
(1)人脸分析及识别
人脸检测技术提升了近距离场景下的复杂光照、大姿态、遮挡人脸召回率以及屏幕摩尔纹等场景下的人脸召回率,同时进一步降低了后脑勺、人手、躯干等目标的误检率。手机版本在难例测试集上保持速度不变的情况下,召回率和精度继续提升。人脸关键点定位技术在手机相关方向上,进一步提升了大角度场景和边界场景的稳定性和精度,并且修改整体算法框架,在内部复杂自测集上,人脸归一化到100像素尺度下的点位平均误差到1.3像素。智能座舱应用中大遮挡人脸和穿戴面纱人脸关键点的准确性,DMS场景下的人脸关键点的精度提升10.1%,且关键点稳定性也获得较大提升。人脸重建技术通过渲染数据的使用,更进一步提升了人脸重建的贴合度,特别是近距离自拍场景的精度,在自测集上贴合精度提升2%。
2DFaceID在FAR≤100k条件下,常规及戴口罩场景FRR改善1.4%~2.1%;3DFaceID在同等场景下,FRR改善0.5%~0.8%;车载场景的RGB/IR交叉识别持续改善,FRR改善1.0%~1.9%,且海外人种识别效果显著提升,全人种(黑、白、棕、黄)测试下FRR改善1.2%~4.7%。静默式活体RGB及炫光活体版本效果持续优化,炫光新增三种打光组合,在应用中更新了主动活体及炫光活体功能,以满足市场需求。性别识别RGB与IR版本准确率分别提升1.7%和1.9%;年龄识别效果进一步提升,RGB与IR版本MAE相对减少6.2%和4.9%。此外,宠物ID算法逐步成熟,可区分同品种不同个体,对猫狗照片自动聚类准确率已经超过竞品。
(2)人体分析及美化
人体检测技术进一步提升了人体召回率并且降低了误检率,同时提升了目标跟踪稳定性,在智能座舱应用场景尤为明显。在内部难例测试集上,精度不变前提下的召回率提升1.04%至96.34%。人体骨骼关键点技术针对座舱内多人肢体遮挡及大角度倾斜场景,重点优化了手臂点与躯干点的定位准确性。人体重建技术通过多相机采集与人工合成方式补充人体细节动作数据,整体贴合准确度提升约0.5%至96.5%。遗留儿童检测技术优化了五座车场景下,侧躺、侧坐、下瘫等姿势的误检,单帧图片儿童召回提升5.3%。安全带检测技术增加错误佩戴识别功能,在难例自测集上,精度达到95.79%。行为识别技术不断完善,针对ENCAP2026对相关安全行为的要求,实现了在多种车型上对副驾安全行为的识别,平均召回率达85%、精度超95%。同时拓展儿童站立的危险行为类别,落地于多个OEM项目,召回率超90%。基于行为识别的环视哨兵功能;人体下蹲和靠车静止场景的报警召回率均提升至92%,整体召回率达到98.5%。
人脸美型方案在效果、性能、稳定性上全面升级。效果方面,在原有形变效果上精细参数调节并实现非局部形变,模拟出更加自然的形变效果,通过客户验收并获得认可。性能方面,美型框架升级使耗时降低近50%,在开启多个形变功能时,优化变形逻辑,提升预览性能,用户体验更好。稳定性方面,重构强边缘及大角度保护机制,增强预览稳定性,降低美型失效概率。传统美型通过模板整理,重构接口,减少库大小及使用内存。AI人脸美型参考真实整容技术,注重保留用户原生脸部特征,实现个性化自然美化效果。人脸美化方向由视觉艺术团队主导提升美学效果。基于AI美型方案,已按预期实现个性化人脸强边缘平滑功能并计划添加更多美型效果。
人体美型方案根据客户需求,新增人像自然瘦腹功能,提升人像气质。升级人体感知模块,应用人体语义分割、三维人体重建等技术提升参数准确性与变形控制精度。
(3)宠物分析
宠物目标跟踪中新增ID识别功能,在处理遮挡、快速移动等复杂场景时也能够准确区分不同个体,确保了跟踪结果的连续性和一致性。通过对训练数据的系统优化,显著降低了错误标注对模型的干扰,并且在训练过程中动态过滤低质量样本、过度困难样本及分布外样本,全面提升了宠物身体检测、面部/眼部边界框与关键点检测、姿态估计、目标跟踪等技术的整体准确率。
(4)行为分析
继续提升满足DDAW以及EuroNCAP法规的驾驶员疲劳/分心检测技术方案,完成满足ENCAP2026产品原型研发。通过大量路测数据对疲劳/分心的误报进行实车数据分析,通过多数据融合将基于车机信号与车辆控制信号在内的驾驶员行为数据与视觉感知信息进行融合,通过数据统计优化行车中的误检问题。同时,结合大量KSS以及心理行为研究实验结论,研发了更加符合疲劳认知的全新疲劳解决方案。根据大量疲劳研究实验进行了真实疲劳数据采集和真实疲劳检测技术更新,提升了基于真实疲劳反应的驾驶员疲劳分级检测,在视觉信息获取上增加多帧、多时间窗口的分析,增大疲劳分析的时间窗口区间,将大量与疲劳行为相近但表现形式有差异的混淆行为进行鉴别,对诸如低头向下看、从左右两侧注视手机屏幕或者其他交互区域等行为与闭眼或疲劳进行区分,形成了与市场同类产品技术的差异化,目前正在尝试将该新技术融入量产方案中,并且实车测试已达到DDAW认证要求。为满足ENCAP2026新规,公司已完成DMS与OMS新增测试项的功能研发,包括受损驾驶员行为分析、座舱乘员异常姿态与体态检测等,形成了完备的能满足ENCAP2026测试范围的产品形态。
视线追踪技术已支持众多智能座舱量产项目,结合座舱标定方案为驾驶员分心技术提供视线落点输出支持,完成了EuroNCAP法规中需要支持的视线落点检测研发,对驾驶员视线检测覆盖到舱内23个区域。满足EuroNCAP所有视线分心测试场景的检测要求,包括车内常见手机摆放位置下驾驶员看手机行为识别,并将过标方案融入量产方案中,实现了更多满足法规要求的视线功能设计。
根据对ADDW法规的解读与技术实现分析,目前已经完成ADDW实车专项测试,并即将在各量产方案中设计算法方案,满足该法规标准继续进行单摄像头下视线追踪技术的精度提升,自主研发基于3D人脸重建与追踪的底层数据特征表达,实现3D视线追踪技术。视线追踪技术继续对多摄像头方案进行研究,并根据项目需要应用在量产项目中,全面提升驾驶员在车内的视线精度,尤其是在人脸大角度下的视线精度,全面覆盖各种摄像头下的人脸全角度。在原有视线真值系统上继续进行方案优化,针对大视差与眼镜条件下的难例进行集中优化,扩大了眼动测试的覆盖范围,相对误差进一步降低10%左右。与此同时,自主研发了基于用户行为的无感自标定视线精度提升方案,对于视线基础引擎的精度做了较大的提升。当前该方案已经取得了重大进展,通过多组实验获得了新型自研模型,在无需用户配合的条件下完成用户个性化特征提取,与原有方案对比平均视线精度获得了7.2%的提升,当前方案的迭代还在持续进行中。同时,视线研发团队还对眼睛瞳孔虹膜特征在成像上的差异进行深入研究,获得了一整套适用于视线的摄像头设计准则,指导量产项目中的视线摄像头设计。新版本在原有座舱行为数据自动化合成平台研发基础之上又拓展了关注座舱安全的哨兵难例数据合成,拓展了座舱数据合成范畴,大大降低了数据成本的同时为解决长尾问题和提升总体精度起到了关键作用。该平台已经用于相关量产项目交付以及预研项目中。
为了更好地解决量产项目中的不同车型以及各种容易引起摄像头位姿变化的外界影响,研发了一整套完善的视线无感自标定解决方案,为主机厂降低相机标定成本,目前该方案已经大规模用于量产项目中,适配各种车型的活动摄像头安装需求。新版本继续探索一体化的适配多摄像头安装位置的舱内DOMS自标定解决方案,以内后视镜为摄像头安装参考位置,挖掘不同车型座舱的共性特征,大规模降低自标定技术依赖的数据存储空间与车型适配成本。将DMS与OMS在自标定方案上进行整合,并于上半年应用于多种DOMS产品形态研发,取得了优异的适配效果。该新自标定技术方案架构将在今后的量产方案中大规模应用,为视线一体化方案带来更高的鲁棒性。该技术方案目前可以兼容支持由于内饰颜色、纹理、光照带来的差异,并可以较高精度兼容有差异的车型之间的自标定方案共用,大大提升了产品的容错率与大平台化的可能性。
酒驾驾驶员行为分析作为2025年新增技术引擎,目的是通过饮酒后驾驶员的行为实验分析驾驶员是否处于酒驾状态,达成适用于量产的基于视觉的酒驾检测解决方案,满足ENCAP2026中关于受损驾驶员的行为分析。
睡眠检测技术根据座舱内乘员的面部状态与体态分析是否处于睡眠状态,在实车场景中需要与低头玩手机、看书等准静态行为进行区分,经过持续研发迭代,各场景实车召回率已经达到90%以上且误报低于1%,支持在各种颠簸路段场景下的高召回,完成众多量产项目。
基于XR头显的眼动追踪完成了双眼双目多光源方案的研发与调优,并配合头显的需要完成了与眼动相关的外围视觉算法研发,完成了设备端部署,精度效果已经达到业内领先水准。同时对适用于多种条件下的眼动算法进行研究,提升底层引擎的检测精度,并设计融合方案实现眼动追踪精度最优化。
车载表情识别与唇语关键词识别技术也有了重大突破。为了设计出符合用户感知习惯的技术方案,满足更好的用户体验,通过大量实车数据分析,构建了一套全新基于用户无感表情标定的表情识别技术,可以满足个性化用户表情识别的需求,精准捕捉到一些具有个性化的面部行为,大大提升了用户体验。唇语关键词识别技术完成了多模态技术的研发,将语音与图像信息融合,解决了一些有歧义的唇语关键词无法用单一视觉技术方案覆盖的问题。
车载危险行为检测,全面推广基于手持物分析和人体行为分析的多通道信息融合的抽烟打电话检测方案,加速产品迭代,持续提升边缘case下的产品体验。算法模型设计方面,进一步提升模型的特征提取能力和通用性,并借助视觉语言模型(VLM)强大的推理能力提升数据处理效率和利用率。基于DMS/OMS一体化解决方案的方向盘脱手检测算法,对算法方案进行升级,结合手部跟踪、人体行为分析,细化手和方向盘的交互类型,提升算法的稳定性和产品的整体体验。对自顶向下视角的玩手机和方向盘脱手检测算法方案进行快速升级迭代,优化手部的检测和跟踪逻辑,对手和方向盘的相对位置关系进行更加精确的分析,显著提升了算法效果。
(5)手势识别
手势识别相关底层算法持续迭代升级。手部检测/跟踪算法,面向丰富的使用场景,提升对hardcase的支持能力,如强背光、室外夜景、超近距离、多人远距离、手物交互等困难场景下的手部检测跟踪能力有所提升。手部姿态估计算法,主要面向车载场景持续迭代升级,基于RGB/IR多模态输入,针对低画质、弱光照、高噪声等复杂环境,实现系统级优化,显著提升算法的鲁棒性与稳定性。当前算法适配主流车规平台,支持多种车载手势交互与行为分析场景,持续提升智能座舱的人机交互体验。静态手势识别,报告期内进一步提升分类模型的识别效果,为增强分类模型对手部结构特征的理解,融合手部关键点的拓扑结构信息以强化分类特征的表征能力。此外,结合注意力机制增强了模型对手部重点区域的关注,引导模型聚焦于语义关键区域。上述改进在保持模型推理效率的基础上,使静态手势识别在复杂环境下的稳定性与准确率均有明显提升。
移动端和PC端手势产品线,报告期内承接并实施多个面向移动终端设备的手势识别项目,支持包括静态手势和动态手势的多种交互方式。针对不同目标设备的硬件资源差异,采用不同结构的模型及优化方式,确保模型在端侧具备良好的性能和功耗表现。目前,多个项目已通过阶段性验收测试,满足客户对手势交互体验和性能指标的综合要求。
车载智能座舱手势产品线,基于OMS的RGB/IR镜头的静动态手势交互技术,已更新适配最新的车载算力平台,在提升效果的同时,降低了算法的资源消耗和性能,提升了解决方案的市场竞争力。在效果方面,着重优化了相似手势误检问题,使静动态手势获得更好的用户体验。新增支持“抓握拖拽”、“拇指左右移动”等多个动态手势,通过多轮实车体验迭代,持续调优算法,满足客户对动态手势在功能性和稳定性等多方面的验收标准。优化基于RGB/IR相机模组的三维空间食指指向识别技术,结合2D手部关键点和3D手部模型,还原手部在三维空间中的真实姿态,实现多方向准确识别,并拓展支持TOF摄像头,通过结合深度图像对食指精细建模,进一步提高识别准确率。鼠标手势交互技术,面向客户新研发了基于RGB-D相机模组的鼠标手势交互方案,包含食指鼠标、抓握投屏、捏合调节音量/进度、挥手关屏等功能;其中食指鼠标利用对指尖点准确3D定位、手部精细建模,实现食指指尖精细控制鼠标移动、拇指叩击中指实现鼠标点击。在大角度姿态、手部自遮挡等较难场景下仍保持高精度识别。此外,基于手势的石头剪刀布游戏也在行业头部客户上车量产,反响良好。
(6)图像质量分析
人像质量分析算法显著提升特殊场景(如暗光环境下深肤色人像)的评估准确率,同步优化宠物模糊判断效果。HDR场景识别技术在AI眼镜方向持续扩展,完成多家客户算法交付并新增多芯片平台适配能力。
(7)高动态范围(HDR)
YUVHDR支持旗舰处理器AEB模式下的HDR融合。该模式配合改进的HDR融合算法,实现了零延时的高动态范围合成,平衡高光还原和亮度过渡,同步实现防鬼影和防噪音平衡,实现了对霓虹灯、日落、天空、室内flicker等不同场景的智能优化,提高了整体的合成率和还原度。该模式支持对动态曝光输入的自适应调整,保持输出曝光的稳定性。在防鬼影方面,加入了基于AI的增强技术,实现了提亮和去噪,减少了运动区域的噪音,提高了运动场景的画质。针对高饱和度区域的还原,转换到HSV空间进行颜色、饱和度、亮度的动态融合,获取更鲜艳真实的颜色。针对中低端平台无法提供ISP提亮帧的情况,通过调整原有框架,改进HDR融合算法和鬼影处理策略,改善融合结果。开发暗光环境人像HDR功能,并支持闪光灯和屏幕补光模式,在暗光人像模式能更好地还原场景动态,同时保持人像的亮度和人脸的细节。根据对不同风格的要求,定制HDR融合策略。基于机器学习算法结合预览图片的统计特征改进动态EV算法,为系统推荐适配的低曝光图片的EV值,提升融合结果的动态还原效果。在报告期内将应用场景拓宽到AI眼镜上,适配了安卓、IOS等多个平台。
基于RAW域的HDR在AI去噪、高动态图像获取方面都取得了巨大进步,针对HDR摄影的复杂环境,从白天到夜晚都准备了鬼影处理策略,在影调方面以保持真实场景亮度分布为出发点,自适应调整影调,在保持原本动态范围扩展能力的基础上使最终结果更贴近客户美学需求。基于场景识别与语义分割,实现对不同被摄环境、不同语义区域的自适应影调调节,确保成片自然度。根据senser、环境信息,智能提升了最终成片的通透程度。针对运动场景实现了智能优化,提升了运动区域的画质,提高了抓拍成片率。针对不同曝光序列优化了运动鬼影,改善最终成片效果。弱光环境结合图像分割方面,根据图像区域分割的结果动态调整局部的融合策略,最终的融合结果更加自然。开发暗光环境闪光灯模式和屏幕补光模式人像HDR功能,暗光人像模式能更好地还原场景动态,同时保持人像亮度和人脸细节。通过对前后景亮度颜色的自适应优化,提升了闪光灯拍摄的氛围感。针对人像场景进行了真实感模拟,提升了人像成片质感。基于不同环境进行光色联动调整,提升成片氛围感。进一步拓展了HDR的特性和应用范围:适配了Quadbayer数据,为使用最新sensor获取更好的纹理细节提供了保障;灵活支持可变倍率,为全倍率RAW域HDR的实现打下了基础。在亮光环境下,利用不同通道的混合输入数据,在继承了HDR影调的同时实现了图像纹理细节的大幅提升。针对硬件能力不足的中低端平台,设计了全流程轻量化处理框架,提升了处理效率,降低了资源开销。通过算法框架继续优化和精简,适配了更加低端的硬件平台,进一步拓展了技术的落地范围。
(8)暗光图像增强
暗光图像增强技术,公司为客户的摄像头传感器做了针对性支持,确保每个摄像头的去噪以及保留细节达到最佳效果。改进对齐算法,提升运动区域和人像的配准精度,保留更多算法结果细节。改进多帧融合算法,结合AI增强提升细节。改进针对运动区域的去噪和融合算法,消除运动噪音和运动模糊。改进高动态场景下的模型训练,使得高动态场景的暗处细节更清晰。改进训练策略,使得落地后的性能优化版本效果更好。研发基于增强型的暗光图像增强算法,实现最终出图效果清晰度明显提升,进一步拓展增强型暗光增强算法的适用范围,使得更暗的场景实现清晰度的提升。针对图像的亮部和暗部,做针对性的处理,拓展了图像亮部区域的清晰度画质提升;针对中低端设备噪点严重的特点,开发新的单帧处理算法优化图像。针对人脸部分,开发专门的算法对人脸进行去噪和增强,有效改善人脸的视觉效果。对不同的平台计算资源,比如NPU、GPU、DSP等做性能的最佳适配。同时,针对更低平台做了算法的针对性改进,维持效果和性能的最佳平衡,使得算法可以平铺到更多的客户设备。针对中低端平台将轻量化单帧图像增强AI模块和多帧模块配合,在很小的系统消耗的情况下,实现细节提升。进一步优化低端平台的性能功耗,使得在纯GPU的平台,也能用上性能快,功耗更低,效果更好的图像增强算法。针对车载平台和AI眼镜平台开发自适应的多帧和单帧算法模块并配合开发轻量化单帧图像增强AI模块,同时优化训练方法,提升不同设备使用的网络的更新迭代效率,最终实现画质提升。
(9)超分辨率图像增强
超分辨率图像增强技术,通过不同方案的尝试和实践,最终方案在清晰度上有突出优势,在效果和性能上达到了一个新的高度,满足市场客户的需求。拓展更深层的超分维度,YUV域、RAW域、Quadbayer域等,实现超分辨率的质的提升。改进运动区域检测策略和配准精度,改进融合算法,优化AI模型训练流程,提升AI增强的效果。研发基于参考图片指导的YUV域AI超分算法,实现动态照片,更换封面帧后结果的画质。研发基于增强型的AI超分辨率算法,不同的倍率下清晰度和解析力都得到明显提升。攻克了Quadbayer更高iso和逆光场景的输入网格和噪音偏大难题,拓展更多的亮度范围场景下,实现光学的超分辨率。改进针对不同摄像头传感器的去噪效果,提升结果细节。拓展更高放大倍率的细节提升方案,针对不同的放大倍率的特点,训练针对性的AI细节提升模型,使得在各个放大倍率都有更优的画质表现。优化代码框架,提升性能。实现在不同的放大倍率上,都展现出更好的去噪效果以及细节水平。结合ZSL和PSL的RAW数据,开发25M产品,提升结果细节的同时,保留场景的动态,在多轮算法迭代和框架优化后,实现性能和功耗的大幅优化,同时在最新的旗舰平台开发了基于AI的不同解析力图片融合算法,进一步提升图像中不同区域的细节的表现力和一致性。整合25M的整体框架,充分利用平台的各种资源,达到NPU、GPU、DSP等做性能的最佳适配,提升产品的用户体验。
(10)画质修复
屏下摄像头画质修复技术实现了预期的功能,在抑制图像原有噪声的同时提升清晰度、对比度与色彩饱和度,使成像效果更接近普通摄像头效果。
文档图像去阴影技术,面向多个客户出货项目,重点针对一些中低端平台做适配与优化,构建轻量级高性能的去阴影解决方案。算法在保持实时性的同时维持原先的画质表现,边界保留自然清晰,有效提升整体视觉体验。当前算法已支持多平台商用部署,可以应用于相机拍照与相册应用,满足用户对拍照完美质量的追求。
美食阴影去除方案,针对客户平台算力低,性能要求严格的情况,通过设计单阶段方案,开发了更优更快的去除模型,有效降低了设备推理的耗时开销;针对室内复杂多变的光源情况,通过适配真实餐厅阴影的场景,提高了方案的有效去除范围,进一步改善了部分食材颜色恢复偏色的问题。
图像去反光技术,重点优化模型结构和前后处理流程,降低算法内存和耗时,同时保持效果基本不变,满足算法在低端设备平台上的部署需求。
图像去炫光技术,调整模型结构,新增专项数据,有效抑制了特定场景下出现的误处理和异常条纹等问题。针对手机拍照应用对算法的内存和耗时要求,优化模型算子和前后处理流程,并完成模型的量化部署,在保持处理效果没有明显损失的前提下大幅降低内存和性能开销。针对部分人脸图像处理结果失真的问题,对人脸区域增加额外的处理策略,使结果更加自然。
图像去雾和视频去雾技术,针对客户在雾天场景中的图像质量提升需求,深入研究并设计了一套新的去雾算法方案,解决手机拍摄图片发蒙的问题。该方案通过建模图像复原过程,并融合视觉感知优化策略,通过多项关键AI感知技术的协同提升,使得处理后的图像更加贴近真实无雾环境,具备更高的视觉自然度与观感舒适性。与原有方案相比,新方案在雾气去除的彻底性、图像细节的保真性以及整体算法性能方面均实现了显著突破,该算法已经在指定设备平台上实现量产出货,保证了在实际应用中的可靠性与有效性。
AIImageDebanding,针对手机拍摄过程中因光源频闪与相机传感器采样机制引发的周期性暗纹问题,在CV的算法基础上,开展了基于AI驱动的Debanding算法研发。可通过深度学习模型精准识别与修复banding伪影,算法具备较强的泛化能力与良好还原度,有效改善低光与室内环境下的图像观感。当前已完成主流平台的适配验证,正在稳步推进迭代,为公司手机端图像质量恢复系列产品提供又一新成员。
(11)视频画质增强
视频超夜技术,主要改进了去噪算法并从YUV域去噪扩展到RAW域去噪。YUV域去噪算法分别针对PC上的应用和车载上的应用做了研究和改进。PC上的应用和车载上的应用的主要区别在于去噪算法运行的主要处理器不一样,前者的去噪算法主要是运行在GPU上,后者的去噪算法主要是运行在NPU上,因此针对其特点分别给出了不同的去噪方案。PC上的去噪算法在传统CV方案上结合了AI方案,CV算法主要是提升了鬼影检测技术,从而进一步改善了运动物体的去噪效果,AI算法根据不同摄像头的噪声特性,设计了不同的训练方案和量化策略,使得每款摄像头都能在降噪质量和性能上达到较好平衡。基于车载平台开发了全新的AI实时去噪方案,并针对鱼眼镜头专门优化了训练数据的采集方案,降低了数据采集的难度,提高了采集效率,从而大大加快了模型迭代速度,同时在模型优化上面采用了数据蒸馏,模型减枝等优化手段,使得模型能够在车载设备上对1080P的视频进行实时处理。YUV域去噪算法改进了帧间稳定性,降低了帧间噪声闪烁的问题。同时加入了视频提亮功能,并改善了去噪算法,使其在提亮后噪声仍然能够保持比较低的水平。对于极暗的视频,在YUV域处理比较困难,因此我们将处理域前移到RAW域。RAW域处理的好处是噪声形态没有被其他处理过程破坏,保持了原始的噪声形态,这对于去噪网络来说是比较友好的。但是它的难点在于需要处理的数据量增加了,因此对于极暗视频,我们的重点放在了模型优化上面。经过优化我们可以在当前的旗舰机下实现4K视频的实时处理,同时噪声去除能力也明显优于传统的去噪算法。手机端视频超夜技术,拓展手机端至暗光0.1lux,极大改善AI降噪模型的降噪能力的同时保持细节。在实时性和功耗上,做到极致优化,满足客户使用场景需求。针对性训练不同摄像头传感器的视频去噪效果,针对客户的不同硬件平台,设计模型和量化策略,达到画质和性能功耗的较好平衡。RAW域去噪算法进一步优化了性能和功耗以及高亮区域的彩噪问题,同时支持了高动态范围视频的去噪。
全新研发的高动态视频超夜技术,在降低噪音保留细节的基础上,极大地扩展了视频的动态,嵌入了公司视频影调技术,使得视频超夜多维度画质提升,更贴合美学需求。经过极致优化,高动态视频超夜技术的实时性和功耗等客观指标均满足客户需求,达到业界领先水平。
视频超分技术,持续改善文字场景和密集纹理场景的效果,进一步提升了小字号字体的清晰度,增强可阅读性,改善了混合语言文字处理偏差问题。在密集纹理场景中,减少出现假纹理现象的概率。同时,优化了模型结构,减少了性能开销和功耗,并保持处理效果跟优化前持平。
视频插帧技术,扩展了应用场景,包括模拟长曝光场景、视频编码插帧场景以及多摄像机切换镜头中的应用。在模拟长曝光场景的应用中,主要针对非规则性的运动做了进一步优化,插帧效果更加平滑和自然。在多摄像机切换镜头的应用中,改善了重复纹理的场景的效果,并针对大视差场景做了优化,同时优化了性能,比之前版本耗时减少了20%。
(12)畸变消除
进一步优化了光学畸变消除性能和功耗表现,提升了视频流的处理性能;进一步提升了身体部分的修正效果并优化了任意输入区域透视畸变弱化的效果;设计实现了人脸和身体透视畸变检测及自适应矫正的方案,扩展了人像矫正的适用范围。增加了人像俯仰拍摄畸变修正方案,针对不同角度拍摄人像进行拍摄角度修正,合理利用畸变,提升了人体拍摄美观度。
(13)光学变焦
升级fusion算法为AIfusion,极大地提升了传统fusion算法的效果,对于一些极端情况提供了自动判别算法,该算法业内首发落地某畅销机型。深度参与高通Pipline设计,推出人像场景的PortraitSAT,成功发布于某国际高端机型。
针对暗光场景、弱纹理场景、大视差场景进行优化,提升了对齐的准确性和鲁棒性,优化自适应镜头静态公差矫正,便于适配不同的镜头配置,同时算法进行模块化设计,提升了SAT算法在不同新平台下的兼容性和拓展性。
(14)多摄标定
进一步扩大AVM标定和BSD标定的适配范围,舱外ADAS车载标定解决方案基本完善。本阶段重点推进多车型实车部署。针对多种乘用车和商用车部署了AVM标定方案,适配了数十种标定场地和环境,针对多款商用车部署了售后标定方案,在标定成功率、精度及效率三个维度实现同步优化。
(15)全景拼接
全景拼接技术,优化了仰拍和俯拍场景,重点处理一些极端情况(如大角度旋转),通过改进融合策略改善错位融合的视觉效果;针对超广角镜头中出现的直线扭曲问题,新增匹配算法使其匹配成功率进一步提升;改进了运动物体检测算法;新增了对星空场景的支持,针对多星/少星场景设计差异化配准算法与星星特征描述符,提升星点的匹配成功率。
(16)人脸美化及修复
公司在图像修复与编辑方向上长期致力于LivePhoto、视线校正、人头姿态校正等人脸修复与编辑技术。
LivePhoto技术通过调整深度神经网络结构,针对性改进口腔区域模糊、不真实的问题;研发了针对特定人物的微调技术,使得算法能够生成更加逼真的结果;对网络进行性能优化,使得效果可以在PC设备上做到实时。改进的新版本可以不依赖于初始的对齐步骤,利用隐式参数传递即可完成人物驱动,提升了技术的易用性。新版本采用更高效的隐式参数驱动方法,大幅提升运动传递的准确性,使处理后的人物动作更加自然流畅。同时,增加边缘保护机制,处理结果可完美贴合原始图片和视频,极大提升了技术的实用性,为用户提供了更多创意和应用的可能性。视频口播数字人技术,基于用户提供的几分钟视频素材可以训练得到对应的数字分身,在输入不同的文字内容时可以进行相应的生动播报,支持中文、英文等多语种。新改进的版本提供了可跳过预训练的通用口型生成方式,使得用户可以便捷地对视频中人物口型进行替换,降低创作门槛,同时新版本还增加了语音克隆和视频延长的功能,进一步提升了生成视频的真实性。结合最新的DiT技术,进一步提升口型与音频的匹配度,使数字人播报更加自然流畅。此外,除了数字身份应用外,积极拓展技术边界,结合多模态大模型和视频生成技术,实现了实时语音对话和AIGC个性化视频生成应用,为用户带来更丰富、更智能的交互体验。视线校正技术研发了全新的3D视线校正算法,创新地结合了三维人脸重建和二维图像编辑方法,相较于前代算法产品,突破了正脸姿态的限制,并且大幅度拓展了算法能支持的视线角度,在人脸角度和视线偏移角度均较大的情况下算法依然可以得到正确的矫正结果。用户主观测试报告表明,新算法在真实感、矫正范围、算法稳定性、准确性等方面均明显优于竞品。在效果上,相较于前代版本,解决了可能会出现的额头部分变长、脖子区域融合拼缝、面部抖动、面部刘海导致眼镜断裂等问题,在视频上能做到连续、稳定、自然的结果。在性能上算法完成了模型的蒸馏和量化训练,以及计算过程全部部署在GPU上,实现了算法在设备端的实时运行。
在人脸美化技术上实现了人脸自适应肤色调节技术,可针对不同肤色的人脸进行自动肤色调节,有效提升不同肤色情况下的效果一致性;调整了磨皮方案,进一步提升了细节表现力,肤质纹理更加自然,增强了对不同画质人脸去噪的自适应性,改善人脸明暗不均现象的同时立体感也得到提升;实现预览磨皮算法,在去脏能力、通透度、立体感、肤质细腻度方面都有所提升;实现了Vulkan方案的磨皮、美白、美唇、亮眼、白牙、去唇纹等美颜技术和腮红、眼影、SkinGloss、美瞳等美妆技术,在基本保持性能和视觉效果优势的情况下,解决了客户不同设备平台间驱动更新时产生的兼容性问题,降低了产品的维护成本;实现了Vulkan方案的眼妆、唇妆、眉毛等妆容的妆容增强技术;实现了4D眼睫毛、眼影、唇彩、腮红、SkinGloss等4D美妆技术,较大程度上提升了美妆的真实性、立体感和光泽度,进一步优化了大角度、姿态下的美妆效果;实现了AI唇部、眼部遮挡物体分割算法,提升了美妆技术的实用性;实现了AI预览祛斑算法,较大提升了预览美颜的祛斑、去脏能力,对肤质纹理也有很好的保留;优化了拍照AI祛斑算法,对大侧脸提升祛斑效果的稳定性;图像祛斑方面也增加了去抬头纹、去颈纹等新功能。性能功耗方面,进行了GPU优化、模型优化和NPU硬件优化。对美颜预览、拍照算法进行了性能、内存、功耗的全面优化,其中美颜预览性能优化8%、内存优化16%、功耗优化10.7%;拍照算法性能优化9.2%、内存优化6%、功耗优化5.7%。预览头发柔顺技术可以去除视频中的杂乱发丝、捋顺发束,达到美发风格化的效果。针对海外市场需求,定制实现了Bindi检测技术,可保护印度女性眉心Bindi,提升美颜效果;针对客户对高清人像的需求,开发了结合AI的人像算法,在调整光影瑕疵、修饰皮肤质感和恢复五官结构上做到了光影更好看、肤质更细腻、五官更清晰,打造了人像审美的高级感。
低光照和极暗光线下的人脸美颜解决方案继续扩展了超清人像美颜风格的应用平台,人像视觉效果更加自然、整洁,同时保持清晰度和立体感。视频任务上,针对移动设备端改善了模型以及任务框架,增强人像效果以及自然程度,同时提升了性能并优化了功耗。而PC端主要增强人像修复强度,提升人像解析力,同时针对不同平台做了专门性能优化。实现针对车载、平板、PC、手机等设备的视频人像修复的轻量级模型部署。
人脸修复技术针对不同画质的人像照片,进行了更细致的算法区分处理,能够让正常拍摄的人像脸部肤质更显性、更自然,将长焦或极差环境下拍摄的人脸恢复清晰,目前算法都已实现在手机端的部署,作为整体画质增强模块的一部分,人脸修复技术已应用到多个产品之中。针对高倍率的拍照场景,研发基于大模型的超分修复方案,部署和落地到设备端,让高倍率下的场景变得更加清晰,视觉效果得到较大的提升。
人脸换头技术,用来提升用户拍照时(尤其是人像合照场景)的成片率。在合照拍摄场景中,往往在抓取精彩时刻的一瞬间,会存在部分人物头部、表情姿态等不协调,如果重新拍摄将费时费力,且错过了那一精彩时刻,也难保重拍过程中仍存在另外人物新的姿态不佳。人像换头技术基于动态照片拍照场景(用户在拍照时,会有一张最终成像的静态图像和同步保留拍照前后3s左右的动态视频),算法通过抓取动态视频内人物好的头部表情姿态,来替换融合最终成像中人物不好的头部表情姿态,从而保证最终合照成像下所有人物都有最佳的表情和姿态。整个算法处理过程中,基于公司已有成熟算法积累(微笑检测、模糊判断、睁闭眼开合度检测、遮挡判断等),自动化抽取推荐出姿态佳、表情姿态好推荐帧,用于人物头部姿态替换。为了提升算法应用的鲁棒性,扩展应用边界,针对一些遮挡场景下,整体头部姿态校正的不适应性,公司开发支持了换脸策略,只对成像中人物面部五官表情进行替换。另一方面,受限于动态视频帧画质与成像画质的差异,公司研发肤色/画质的对齐模块,以及对应画质微调的人脸修复算法来进一步的对齐画质,从而保证最终头部姿态替换融合校正后整体画质的一致性。为适配客户的需求,针对宠物场景,新增开发了宠物换头技术。初步实现了宠物头部姿态校正与眼睛开合校正算法,解决了用户在拍摄人宠合照时,宠物容易出现的头部姿态不协调、表情不自然等痛点问题。
(17)虚化技术(Bokeh)
持续优化视频虚化(电影模式)、单摄虚化、双摄虚化的产品细节,始终保持行业领先地位。
本报告期内,继续以最新改进的AI-DepthUltra技术为基础,完善新一代智能虚化引擎AI-BokehUltra,在准确性、自然性、艺术性等维度上深入探索技术,改善算法和产品,持续保持行业的领先地位。通过进一步整合最新的语义分割、Matting及虚化算法,持续提升发丝精度,特别是复杂背景、复杂纹理下的发丝准确性和自然性,大幅改善了玻璃场景的精度,进一步提升了手持物的准确性,提升了整体成片率。继续丰富了虚化层级、层次,使得虚化结果具有更自然的渐变层次感。化了小光斑的呈现,使其更圆润、明亮、自然。单摄虚化在更多机型上支持了艺术光斑效果,进一步优化了旋焦算法,支持了哈苏风格镜头效果。单摄虚化还支持了P010图像格式,使得虚化结果具有更好的色彩表现。
升级了新一代渲染算法,该算法在效果上更加逼近大光圈的单反镜头,光斑更具真实性、自然性和艺术性;改善了渐变的层次感,使其更加立体、自然;改善了边界的准确性,使其更加锐利;进一步改善了虚化效果的准确性及渐变虚化的层次感,提升了成片率;支持了圆形及椭圆形电影镜头级光斑效果。
双摄虚化基于更加精确的双摄AI深度,进一步优化算法,使得效果更加精确和自然,接近单反相机拍照的效果。同时虚化算法、HDR和超级夜景等画质类算法结合,显著提高了虚化光斑的层次感和真实感。进一步基于特定的单反相机或镜头专门优化光斑效果,使得更加接近光学镜头拍摄的效果,如哈苏风格化等。结合第三代AIMatting技术,发丝的数量和精准度对比前一代有了进一步的提升,同时头发附近的发饰等细小物体的分割效果也一并得到了改善,同时结合深度信息,可以让发丝产生层次感的虚化渐变,更加接近光学相机拍摄的效果。
双摄虚化与TurboFusion技术有机结合为TurboFusionBokeh,利用TurboFusion获得真实场景亮度信息,使得虚化更加接近单反相机在实际场景中的拍照效果,光斑更具能量感和层次感,形状更加接近单反相机的效果,颜色也更加真实。TurboFusionBokeh的光斑效果升级成2.0版本,光斑的颜色、亮度、形态和层次进一步逼近真实相机拍摄的效果。
全新的AIBokeh技术,可以修复深度图上的瑕疵,是业界首次可以逼真地模拟出接近单反相机真实自然的前景虚化效果,同时还可以支持多种单反相机的光斑形态。AIbokeh从8bitYUV域扩展到16bit线性RGB域,完全嵌入到了TurboFusion的流程之中,从虚化生成原理上更加接近实际光圈相机的生成过程,结合最新的高精度深度模型和第三代AIMatting技术,基于更加精细的深度层次信息和更加精准的头发Matting,开发出了虚拟光圈技术,可以更加逼真地模拟特定单反镜头不同光圈下的拍摄效果。AIbokeh从16bit线性RGB域扩展到支持20bit的线性RGB域,使得更多原始的亮度信息得到保留,生成的虚化效果更加真实。虚拟光圈技术从原来的只支持35mm焦段,扩展到85mm的黄金人像焦段,可以产生长焦镜头上更大的光斑,更强烈的虚化效果和更浅的景深。
(18)深度恢复
本报告期内,继续提升AI-DepthUltra的准确性、场景泛化性,以及针对客户的各目标平台持续优化性能、功耗,对应用于单摄虚化的单图深度预测、应用于视频虚化(电影模式)和预览虚化的视频深度预测均做了相应更新,持续保持单摄深度预测算法的行业领导力。通过专项攻坚大幅优化了玻璃场景的准确性,深度图更加符合虚化场景的深度要求,即干净、透明玻璃区域的深度应为玻璃外物体的深度,改善了之前算法在类似场景下的漏虚问题。改善了深度预测算法的泛化性,在夜景、大光圈下的原生背景虚化图等输入场景上,预测出更准确的深度。除了精度的改善,我们还同步优化了算法的性能和功耗,其中AI-DepthUltra单图深度预测性能优化了30%以上。另外,最新的深度预测算法因为高准确性、稳定性及场景适用性,除了应用于虚化产品线以外,还为更多算法和应用提供了底层支持,并成功出货。基于单摄深度估计的大模型,进一步提升了深度恢复的效果,基于大模型新进研发可度量深度估计,几何深度估计模型可以提供准确的三维空间关系。人物,物体和环境的三维结构更准确为背景虚化、三维重建、人像重打光等领域提供更准确的深度信息。
为进一步满足客户下一代平台的虚化要求,持续对双摄深度恢复算法进行开发和优化,使得其性能和效果在客户的下一代平台上得到了最佳的部署,极大地提高了深度的准确性和精细度,并且对于不同的双摄模组排布的支持也更加完善。双摄深度AI模型从原来的只支持水平垂直排布的模组拓展到支持任意角度排布的模组。同时针对一些特殊情况,比如细小物体、透明物体、反光物体、低光夜景场景等,融合了单摄模型,训练了全新的双摄深度模型,使得深度效果更加稳定。双摄深度模型顺利在高通和MTK最新的NPU上完成适配和部署,性能和功耗都有着极大的提升,并且针对不同平台优化了不同复杂度的版本,以适配不同的效果和性能需求。同时双摄深度也进一步提升了在细小物体,无纹理场景的效果。
针对多摄深度进行细节级优化,改善中远景的小尺寸人像缺失及交叠人像判断错误等问题。提升中近场景的镂空、手持物/头饰等细节区域的精度。修改了不同场景深度分布波动大问题,使得深度数值与真实距离线性相关。提升了前后帧画面的稳定性,此外深度图与RGB边缘更加贴合,改善了边缘漏虚误虚问题。以上优化为打造更加自然、稳定的虚化效果提供了基础。
基于单摄的多视图深度恢复技术研发取得了长足进步,相比基于单一视图的深度估计方法,借助多视图像可以更好地恢复场景几何信息,并应对场景遮挡问题,同时拥有更高的深度估计精度和一致性,是三维场景重建的基础。为了提升网络的精度和泛化性,引入虚拟合成数据精调模型,进一步提升网络输出精度,使其可以重建弱纹理、更复杂的室内场景。另外,实现了模型在端侧设备上的部署,在保证较好实时性的前提下,取得明显优越的深度估计和重建效果。这一突破为移动端实时SLAM、VR/AR导航等应用铺平道路,进一步拓展多种应用场景的落地可能。
(19)图像语义分割
人像Matting算法优化。针对经典的单主体场景,通过算法更新和数据质量提升,持续改善纹理、眩光等复杂场景下的精度问题,特别提升了细长发丝的分割精度和融合自然度。同时,针对多主体场景的人像Matting进行了开发和支持。对多人并排、前后重叠等复杂场景进行效果优化,利用注意力机制避免主体之间的语义干扰,减少误分问题。Matting算法还扩展了宠物胡须分割、毛发分割功能,为Pet类相关上层应用提供了支持。
继续优化AICamera智能场景识别算法,通过数据迭代稳步提升白天夜晚等多场景的语义分割准确性。特别针对植物类别的细节镂空较多的问题进行了专项优化,提高了该类别的分割精度,为图像增强应用提供了更加细腻的控制信息。
升级人像Matting算法,在进一步提升发丝细节准确性的同时,重点考虑了在多纹理、绿植、眩光等复杂场景下的边缘颜色溢出、漏光等问题,同时增加了发饰、耳饰等饰品的支持。在算法端和数据端同步迭代,使得虚化后的发丝效果更加真实自然,饰品得以完整保留。
(20)物体识别
车牌脱敏技术解决方案,在维护已上线版本稳定优化的同时,针对客户的新需求积极开发,优化港澳车牌的检测率达到92%以上,新增如特定车型车牌定制化需求检测率达到96%以上,并且总体检测率仍然达到98%以上的标准。应用领域从乘用车拓展到了商用车,并针对商用车低算力平台(NPU、CPU)设计了特定的解决方案,保持客户要求的实时性情况下,仍然保持98%以上的检测率,超出图像脱敏技术标准要求。
哨兵车辆报警功能,针对客户的新需求开发,新增多种三轮非机动车、老头乐等类别的支持;对新增的几款车型进行定制优化,指标均达标并顺利完成交付;对于个别客户车型定制化开发了基于鸟瞰图输入的哨兵方案,开发了基于运动分割的鸟瞰图哨兵预警系统,支持了常见的几种报警类别;针对非机动车困难场景召回率低,以及行人误触发报警等问题,分别进行持续优化,各个场景下均有明显改善。
(21)场景识别
场景识别引擎GPU版本继续更新迭代算法模型,支持高通、MTK等NPU平台的运行,进一步提升了全体场景检测准确率,改善支持任意角度和有限度遮挡的目标场景检测。
(22)三维重建
三维重建技术更新了基于3D高斯的重建算法方案。与原先的NeRF方案相比,重建速度和效果都有比较明显的提升。实现了一套在线内参标定算法,可以支持任意手机拍摄的视频作为算法输入而无需事先标定,方便服务器端重建应用场景使用。实现了一种全局一致的前景分割算法,能从视频中自动分割出前景物体完成重建,剥离不相关的背景。支持手机端实时渲染,能较好地复现各向异性的光照效果。
针对XR眼镜应用场景,迭代和部署实时三维重建技术。迭代实时语义场景重建,并构建出室内场景的布局信息,目前已经支持室内场景墙、门、窗、天花板、地面、桌子、椅子等元素的布局信息,形成一个更简洁,信息更丰富的室内场景信息,为XR上层应用提供更加完善的语义信息,方便XR创作者创造出更加丰富的应用。
实现了一种立体视频生成算法,可自动对普通视频进行局部重建并在新的双目视点下渲染生成立体视频,从而使得普通手机拍摄的视频也可以在XR眼镜上获得具有立体感的沉浸体验。该算法支持在手机端部署运行,其效果与目前PC端商业软件相当。开发了一种可交互的6DoF视频原型,其效果是在视频播放时可以实现拖拽屏幕改变观看视点的功能。
开发静态场景隐式建模技术,支持生成高真实感的新视点图像。该技术方案根据视频与实时获取的相机位姿,用神经网络隐式建模三维场景,通过可微的体渲染技术,实现端到端训练。该技术方案可重新规划相机路径后渲染得到新的视频,用于视频编辑和立体视频生成等。结合神经辐射场和隐式符号距离函数几何表达,还可用于重建静态场景的三维网格模型。在静态场景建模技术基础上,增加室外街道场景的动态物体建模,从而支持对开放式动态场景进行建模,并同时对静态场景和动态物体进行渲染。增加了基于3D高斯的动态街道场景建模,提升了渲染的图像质量与速度。
AddMe自助合照技术,支持用户在无人协助的情况下实现合照。该技术可引导多个合照人在相同位置交替拍摄两张照片,然后利用图像融合算法,将两次拍摄结果合成为包含所有人的合照。此技术能够自动检测和分割图像中的合照对象,精确匹配两张图的内容,准确拼接所有合照人像。同时,还能妥善处理人物前后的遮挡关系、人像的阴影等,保证合成图像的人像具有正确的空间关系、自然的光照效果,减少人工痕迹,使合成照片具有较强的真实感。
(23)光照重建
对大模型方案下人像重打光技术进行了一系列改进,提升了模型的性能。利用先进的AIGC技术,扩充了训练数据集的规模,生成了更多样化的训练样本,为模型训练提供了更广泛的场景和变化。对于原始训练集中质量欠佳的数据,进行了重绘微调,有效改进了数据的整体质量。模型的泛化能力和鲁棒性得到了进一步提升,重光照的效果和成功率也有了明显的提高。尤其是全身人像的重打光效果更精准和自然。环境光照建模方法也进行了改进,从较为简单的光照建模加强为支持直接输入复杂的环境光照图,从而避免了因低阶近似导致的信息丢失,能够更精确地表示复杂的光照条件,生成更加逼真的效果。另外,还实现了根据背景光照条件自动调整前景人像光照的功能。该功能可用于虚拟场景渲染与合成,能够将真实人像与虚拟场景无缝融合,生成高质量的合成图像。近期实现了针对非理想拍摄条件下的人像光照增强功能。该功能能够自动增强在侧光、顶光、背光等复杂光线环境下拍摄的照片光照,智能地提升图像亮度,减轻阴影,提升照片的整体观感。通过采用模型蒸馏等技术简化模型结构,已成功将该技术部署到了移动设备上,目前正在持续进行性能优化和效果调整,以进一步提升用户体验。
在前期的算法开发中,我们依赖于AIGC生成的大量数据进行模型训练。这些合成数据能够在一定程度上模拟现实世界中的场景,有助于快速构建初始模型。为了进一步提升算法的准确性和鲁棒性,近期引入了大量的实拍数据集,通过迁移学习的方法,在保留原基础模型知识的同时,有效利用新数据的信息,进而提升了模型的鲁棒性和效果的真实感。
此外,实现了一种基于人像图像的环境光照分析算法,可以从单张人像照片中推理出当前人物所处场景的主要光照信息,包括光源的颜色、方向和强度等关键参数。该算法能够高效还原复杂光照环境,为后续的虚拟布光、光照匹配等应用任务提供有力支持。
将光照重建算法从YUV域扩展到了RAW域,以提升图像质量和处理灵活性。RAW格式保留了最原始和丰富的信息,提供了更高的自由度和精确度。RAW数据具有更宽广的动态范围,可以表示更多的亮度层次,从而允许对图像进行更大范围的亮度调整,并在高光和阴影区域获得更加细腻的表现。
为了适应移动端设备的需求,采用了多种模型压缩与加速技术,将原来运行于高性能计算平台的大规模处理模型进行了轻量级优化,并实现了在手机设备上的部署运行。
(24)即时定位与地图构建(SLAM)
VR手柄跟踪是SLAM技术的一个新拓展领域,是VR终端设备的刚需技术。VR手柄算法完成了从仿真到实际设备开发的转变。支持多种第三方设备,并支持双手柄实时交互,实现了安全区设定、空间划线等功能。对VR手柄跟踪算法的性能、鲁棒性、精度等进行了全面的优化,在高通XR2设备平台上,算法单帧耗时在22ms以内,支持视野可见范围内2m/s的剧烈运动,平均定位精度小于6.5mm。除了基于光斑的传统VR手柄,还开发了使用手机作为VR手柄的功能,可以使用普通的Android手机实现实时六自由度跟踪定位,实现菜单点选、简单的游戏交互等。对手机手柄跟踪算法的性能、鲁棒性、精度等进行了全面的优化。从逻辑上优化了用户体验,使得输出轨迹更加光滑、流畅。
SLAM技术在XR眼镜的头部位姿估计上取得显著进步。头部位姿估计是XR眼镜的一个核心技术和基础功能,要求低功耗、高精度和低时延。通过优化SLAM算法和把视觉模块从CPU移到DSP,SLAM算法计算效率提升30%,有效地降低了功耗和运动时延。针对XR常见的室内小面积使用场景,对建图模块进行大量优化,极大提高后端建图和实时定位精度。同时,改进姿态预测模块,实时定位准确度提升30%,接近业内毫米级的定位精度要求。已有版本在多款XR原型眼镜上集成,能为快速、准确的头部位姿估计提供良好的用户体验。
同时,SLAM技术扩展到高阶辅助驾驶领域,包括城市NOA产品的记忆行车自建图算法和基于SDMapPro地图的BEV道路融合定位。在轻图辅助下,实现了硬件选型,BEV+GPS+里程计的多传感器融合定位算法,支持城区内各种复杂路段。此外SLAM技术在自动泊车辅助(APA)和记忆泊车辅助(HPA)中也发挥重要作用,报告期内支持以矢量化元素轻量高效进行泊车地图的建图与定位,在建图方面,能够以极低内存代价保存大规模矢量化车位与元素地图;在定位方面,能够以极低算力极低延迟在车端实现实时定位,并且保证定位精度,实现泊车过程中对目标车位的精准定位。
公司研发了激光SLAM技术,该技术可以支持智能辅助驾驶中4D标注所需的高精度、低时延的6DoF定位和道路场景的点云稠密重建。同时,报告期内支持智能辅助驾驶中4D标注LargeScale场景重建需求和基于场景重识别的标注真值复用功能,极大地提高4D标注静态要素的自动化标注质量。
(25)3DAR动画
公司打通了3D数字人创建、编辑、实时驱动全流程。支持基于单张图或扫描模型完成数字人重建。与之前的重建算法相比,改善了头顶区域、眼睛的相似度,提升了纹理重建效果。编辑模块支持对重建模型的脸型、头型、五官、脖子等进行直观地修改。实现了基于单个RGB摄像头的实时全身驱动,包括表情跟踪与手势跟踪,实时动画效果基本达到业界领先水平。3D数字人重建增加了人头重建模块,提高重建人头几何的相似度;支持双眼皮的拟合,眼睛的相似度;增加了编辑模块,支持重建模型的再编辑及调整,同时也支持从中性模型开始编辑。基于球形实验室多视角数据的超写实数字人重建方案,其重建质量远好于传统方案,3D渲染结果能达到以假乱真的地步。支持左右90度的视角渲染,渲染结果包含部分躯干。支持表情实时编辑,也可进行单目表情实时驱动。为了改善3D数字人重建的真实性及超写实数字人重建的便捷性,研发了基于3D高斯表达的数字人方案,此方案更加便捷,用户仅需输入两分钟左右的自拍视频,即可重建出包含部分驱动的写实数字人,算法可在手机端运行,不仅支持表情、视线、头部位姿的实时编辑及驱动,也能较好地复现出各向异性的光照效果。
(26)健康监测
在保持健康监测技术稳步量产的前提下,提升技术先进性,保持业界前沿地位。心率检测方面,使用更丰富的建模方式,提取更多维度特征,多通道信号信息融合,同时优化算法库架构降低CPU占用,提升产品精度和不同算力设备的适配程度;IR心率对动态场景效果大幅改善,整体通过率提升4.8%;血压监测升级深度学习方案,收缩压和舒张压的MAE均降到10以内。呼吸检测方面,新增暗光、偏色等异常场景检测与过滤机制,同时针对画质不佳场景引入全新信号提取与噪声处理方法,提升算法在苛刻条件下的鲁棒性,为适配不同性能的平台,推出了多种低CPU占用版本,兼顾性能与资源效率。
(27)高级驾驶辅助系统(ADAS)
ADAS产品矩阵持续深化技术布局与场景拓展,通过前沿技术融合与算法创新推动产品力实现跨越式提升。本报告期,公司持续贯彻市场需求与技术创新双轮驱动战略,在维持覆盖低、中、高算力平台的完整产品体系基础上,重点推动了中高算力平台的技术革新,并通过端到端技术架构实现了NOA产品的重大突破。
西湖、南湖产品(低算力L2级智能驾驶辅助解决方案/一体机),基于纯视觉的西湖、南湖产品实施1200多次产品实测,并对多个业内复杂场景专题改进,进展包括:自适应巡航(ACC)针对市区道路中常见的cut-in行为优化,提升响应时间约30%,减少错误率约10%;前向碰撞预警(FCW)针对繁忙路口场景,实施多目标融合控制算法,改善控车舒适度约10%;车道居中控制(LCC)针对车道变化场景优化,提升通过率约5%;自动紧急制动(AEB)完成了两轮大里程测试,通过端到端加传统规则方案成功抑制繁忙市区下典型误报问题,在满足CNCAP20245星设计要求下,将误报率再次降低一个数量级;此外在法规功能上还成功上线了限速识别(TSR),支持国内及欧洲。通过深度优化小型路口识别算法和道路变化场景的预判机制,LCC系统在困难复杂交通环境下的通过率较上期提升20%,显著增强了用户在城市道路和复杂路况下的驾驶体验。在底层感知技术方面,通过时序算法的优化提升,对障碍物测距测速KPI提升约5%。南湖采用低端算力平台创新性地整合了NPU、GPU及BSP等计算资源,实现了包括ACC自适应巡航、LCC车道居中辅助、LDW车道偏离预警、LKA车道保持辅助、拨杆变道、AEB自动紧急制动以及FCW前向碰撞预警等核心功能的系统化集成。
东湖产品(中高算力环周一体NOA解决方案),面向高阶智能驾驶辅助的中高算力环周一体产品方面,成功构建了基于端到端架构NOA的新产品形态,实现行为可解释、意图有根据的智能辅助驾驶解决方案。通过感知与规划的解耦设计,在保持端到端技术优势的同时,确保了系统决策的可追溯性与可解释性,为高阶智能驾驶辅助的量产化设计奠定坚实基础。在具体技术架构方面,实现了多项关键算法模块的突破性进展:基于BEV模型架构的路线,支持和优化了复杂道路环境下车道线及道路中心线的高精度检测,在全域基线上实现10%以上的显著提升,通过与SD导航数据的深度融合,在模型端构建了业界具有竞争优势的无图超视距感知解决方案;为应对开放环境下的复杂避障需求,成功部署了OCC(3D通用障碍物占据栅格)算法,通过多轮深度迭代优化,显著降低了杂点干扰和障碍物误报率,提升了系统在动态环境中的感知稳定性和决策可靠性;面向NOA功能需求,开发了端到端规划算法,通过学习人类驾驶行为模式,实现更加智能化、拟人化的驾驶体验,在复杂交通场景下展现出卓越的适应性和决策合理性。在系统性优化方面,深度完善多任务学习架构,通过优化任务间的特征共享机制和损失函数设计,充分释放算力潜能,支持多项新功能的并行运行;充分考虑了感知帧率、感知延迟、感知精度实现了算力动态分配,关键场景下计算资源利用率提升30%以上。基于“BEV+端到端”技术的定制和改进,提升了探测距离、感知范围、异形车、分汇流道路线、测速等多项核心指标,L2典型场景通过率环比提升23%,用户交互界面(HMI)主观感受提升26%。除此以外,视觉与毫米波雷达融合功能开发完成,已适配多款雷达,使产品形态进一步拓展。东湖产品目前已进入实测优化阶段,采用先进的BEV技术方案,完整覆盖感知、预测、定位、规划和控制等全链路模块,已完成NOA初版的开发。
(28)图像特效
基于丁达尔效应产生的物理原理,选择合适的场景对仿真实现进行合理的简化和模拟,最终实现一套结合AI和CG的方法,为特定的场景图像添加上合适的丁达尔特效效果,提升图像艺术感。人像线条画效果和宠物线条画效果,这两种效果都结合了AI技术和审美的艺术,通过AI算法提取出具有表现力的线条,然后根据审美的评判制定一些准则将原始图像转换为一幅线条艺术画。目前二者都已实现手机端部署,并有参数控制线条粗细、颜色、数量等,从而满足不同用户的自适应调整需求。
光照耀斑项目基于对物理世界相机镜头与光照规律的精确建模,通过模拟实际镜头的参数,设计任意预想的耀斑效果。在用户拍照时添加耀斑效果,能显著提升图像的层次感和真实感。同时,精心设计的耀斑样式还能提升图像的艺术美感。该算法结合了光照方向检测,能够根据当前光照环境自动调整耀斑样式,以确保耀斑效果与当前场景自然贴合。目前,该项目已在手机端部署,并包含耀斑颜色与样式设计模块,可以满足用户获取不同耀斑风格的需求。
FlairClip人像风格化效果通过无监督、少样本地学习特定风格的图像,将图像风格迁移到目标人像中,同时保留人物的可识别特征,实现了数据需求量低、效果稳定、帧间连续性好的人像风格迁移算法,并在服务器端进行了部署,同时向客户递交了一些测试通过的风格化模型进行商用。
PersonalColorTone技术旨在通过个性化定制打破当前设备端内置滤镜的局面,允许用户创建新的基于学习方案的滤镜风格,包含局部调整(比如肤色)。首先,用户根据个人喜好在app上编辑素材,得到自己想要的风格图,然后直接在设备端进行在线训练,快则几分钟,慢则30分钟就能得到目标风格模型,视素材量而定。用户在后续拍照时,只需要选择训练好的风格模型,就能得到目标风格图像。小巧轻便的模型设计是关键,大大减少用户等待的时间,提升用户体验。
(29)生成式AI(AIGC)
通过深入的尝试与研究,基于潜心沉淀的视觉大模型、小模型(细分模型与浅层模型)以及各类CV和CG引擎包构建了一套专有的计算技术引擎ArcMuse。该引擎为虹软PSAI赋予了卓越的智能商拍能力,可高质量生成服装模特展示图、服装展示图、商品展示图及模特展示视频,全方位提升商拍图片及视频的美感和质感,助力用户在效率、创意和成本方面取得更大的提升。
对于其中的AI智能试衣功能,用户只需要上传一张服饰图,选择目标模特,即可生成该模特穿着该服饰的效果图。对于服装智能试穿,该效果图能够真实体现服饰穿着在模特身上的悬垂感、褶皱及光影变化等,且与真实服饰保持较好的一致性。其中的服饰图可以支持挂拍服饰图、平铺服饰图及3D服饰图,且支持上装、下装、裙子等多个品类的服饰。目标模特同时支持内置模特用户自定义模特,其中内置模特覆盖不同年龄、性别、肤色等,用户自定义模特可由用户根据自身需求上传相应图像。该功能基于虹软自研扩散模型基础架构及海量数据训练,能够极大简化传统真人模特拍摄的流程和效率。
AI智能试穿解决方案持续改善算法,拓展新功能,形成了一套更完整的解决方案。首先,服装智能试穿解决方案本身持续进行了多项改进:大幅提升了当目标服饰与参考姿势图服饰有较大差异时的成功率;进一步改善了细节生成,提升了文字、印花、质感等的准确性和一致性;支持了高清试衣解决方案,增加细节并保持与参考衣服图的高度一致性。同时,支持生成一组服装相同、姿势不同的组图,能保持组图间服装颜色、版型、穿着方式等的高度一致性,提升出图成功率。除此之外,AI智能试穿解决方案还在试衣的基础上,扩展了多个新功能,新支持了鞋子上脚功能,给定鞋子商品图及参考模特姿势图,生成鞋子上脚效果图。持续优化版型正确率,特别是目标鞋子与参考姿势图中鞋子有较大版型差异场景下的生成准确率,以及优化了文字、印花、鞋带、材质等细节的准确性和与鞋子商品图的一致性。
得益于模型、数据、算力的大幅增长,AI智能试衣解决方案实现了多项重大更新与重要突破,具体表现为:覆盖服饰品类更多,整体成功率、结果图与衣服图一致性、版型正确率、文字与印花准确性均获得显著提升,面料及纹理质感明显改善,生成的手部区域在正确性及自然性上大幅优化,并扩展支持复杂姿势及背景的参考模特图;同时实现了衣服是否塞入裤子、拉链与扣子开合状态等维度的可控生成。通过对用户需求反馈的持续优化迭代,该方案已达成行业领先水平,有效助力公司PSAI项目为服装商家提供兼具优质效果、快速响应与降本增效特性的解决方案。同时,针对目前项目落地中服饰品牌客户的真实需求,支持了同版型替换功能和局部重绘功能。在输入服饰与模特身着服饰版型相同时,同版型替换功能能够输出相同版型的服装上身图像,服饰上身效果更加稳定,细节纹理更加贴合服饰原图。服饰局部重绘功能针对智能试衣中出现的局部版型和纹理错乱的问题,框选需要修改的区域后进行局部修改,可以明显提升出图效率。
对于其中的AI模特图功能,用户上传一张真人图后,PSAI将智能保持用户提供图片中的服装信息,在生成阶段,PSAI为用户提供丰富多样的预设模特和场景资源选择。对于其中的换模特功能,提供的预设模特包括不同年龄、性别、人种和风格的模特,例如儿童、中年和老年,网红风、韩风、美式复古风等。报告期内,PSAI在风格模特的基础上推出了独特的换头功能。该算法在保持服装和背景高度一致性的条件下,对上传图进行模特替换,极大提高了模特定制速度和生成效率。同时该算法支持生成各个角度包括背身的高度一致性图像,为多角度一致性模特生成提供了稳定且高效的算法流程。该技术会修改图像的面部区域,并迁移脸型、发型等头部特征,从而实现更高的相似度。经过多次技术迭代,解决了发型差异大、大角度侧脸、仰头、低头等极端姿态下的人脸相似度问题。
对于其中的换背景功能,PSAI提供上百种不同预设场景风格的选择,包括影棚等各种室内场景,以及森林、雪山、草原、沙漠等室外场景。通过迭代优化,不断丰富AI模特和场景的细节,提高出图率,这些多样化的资源和提高的出图率将帮助用户在提升效率、创意和降低成本方面取得更大的进步。同时,PSAI支持了用户通过提示词自主描述模特场景,或上传场景参考图,丰富了场景来源和选择性。真实而风格迥异的模特形象,可以吸引更多目标消费者的注意力,增强商家的品牌形象。针对用户文本交互,PSAI推出了自己的大语言模型,用于将任意语言、格式和内容的用户输入转换为适合模型输入的精准提示词,降低了用户的语言和知识门槛。同时,PSAI也接入了DeepSeek作为扩充,增强了复杂用户输入的推理能力。通过迭代优化,不断提升场景的细节和真实性,提高出图率,这些多样化的资源和提高的出图率将帮助用户在提升效率、创意和降低成本方面取得更大的进步。
对于其中的AI商品图功能,用户只需上传一张商品图,即能够智能保持商品主体信息,并基于ArcMuse计算技术引擎大模型和众多引擎组件的生成与控制能力,高效地生成多种场景和风格的精美广告图,大大降低了商品图的制作成本。为了达到商品与场景的完美融合,提供多种预制场景供用户选择。通过在算法层面对生成过程的精细控制,使得生成的场景更加真实、效果更加自然。同时,针对用户的个性化需求,还支持了任意画幅比例生成、预制素材库、上传参考图等功能,允许用户自主控制画面的构图、元素、色彩和风格。报告期内,新增支持了眼镜试戴、商品换色功能。其中,眼镜试戴功能只需要用户上传一张人像图、一张眼镜商品图,即可获得真实自然的眼镜试戴的效果图。支持的眼镜种类包括透明、半透、墨镜、全框、半框等多种款式,效果处于行业领先水平。商品复色功能允许用户上传商品图,并指定换色区域和目标色号,即可获得纹理细节相同,颜色为目标色的同款商品效果图。同时,基于底模型强大的语义理解能力,该算法支持的商品种类广泛,可以为衣服换色、头发染色、商品外包颜色设计等多种应用提供支持。
对于AI模特视频生成功能,用户仅需要上传一张全身模特照片,即可生成各种复杂动作,高保真地展现和还原模特穿上服装后的动态效果,以及衣服的物理效果。它基于ArcMuse计算技术引擎大模型的生成能力,能够保持模特自然的写实效果,无论是正面、侧面、大角度都可以高保真生成和还原,同时可以完美地还原服装物理效果,如裙摆的飘动,完美地表现模特穿上服装之后优雅的风采和神态。该技术使用便捷,生成的视频能够很好地保持输入图像的人物脸型、发型、服装、配饰等外观,也能较好地保持图像背景不变。同时,能够很好地表现大角度的人脸以及生成转身的效果。报告期内升级了动作模仿视频生成技术,新方案效果在画面的清晰度、连续性及服装的一致性等方面提升明显。此外,通过压缩历史帧及自回归预测等方案解决了长时间视频生成的问题,可以在长达一分钟的时间内保持主体的一致性。
除以上四种核心AI技术,PSAI还提供智能补光、智能美化、魔法擦除、高清尺寸放大和智能抠图等AI编辑功能,既可提升商拍成品图的美学特质,也为用户创作提供了更大的发挥空间。
(30)泊车辅助系统(AVM/APA/HPA)
AVM技术在效果呈现上,注重细节提升,精益求精。首先,在透明底盘视觉效果上,针对车身阴影导致的画面分层问题,通过多场景数据采集与分析,迭代优化显示策略,在保障画面清晰度的同时,显著提升了底盘画面的整体观感与一致性。其次,在画面亮度与色彩一致性方面,针对高动态范围、复杂光照等极端环境下的亮度不均、过曝过暗及亮度闪烁问题,系统实施专项化,有效增强了图像色彩的稳定性和自然度。在平台化、性能和效果等方面延续既有技术优势,为泊车系统提供可靠的环视感知基础。
在L2级行泊一体解决方案中,自动泊车辅助(APA)和记忆泊车辅助(HPA)是其重要组成部分。APA功能能够在无需驾驶员干预的情况下自动完成泊入动作,而HPA则允许用户在完成一次路线行驶后,再次到达相同停车场时基于历史建图自动完成循迹泊车。本报告期内重点围绕APA自动泊车功能的场景扩展、感知精度提升和行为智能化等维度实现了系统性技术升级。
基于低算力平台的APA产品在场景适应性方面取得重要进展,成功支持更多复杂和边际泊车环境:①复杂环境适应性增强:成功支持长草遮挡的不清晰车位、低矮台阶上车位等复杂环境下的泊车需求;②极限空间泊车能力突破:成功支持自车+0.6米空间的超窄空间车位泊入,通过优化空间车位检测逻辑,显著扩展了可泊车场景范围。
自动泊车辅助在视觉感知方面,车位检测和避障检测两大技术点均实现显著提升:①边际场景识别能力增强:成功支持肉眼几乎不可辨的泊车空间识别,通过深度学习算法优化,为用户提供合理的推荐车位结果;通过融合时序信息,在自车遮挡车位的泊入过程中持续提供角点和边线精度误差<2cm的高精感知检测结果;通过精心调节观测量融合策略,定位精度进一步优化,在<8°的坡道场景中泊入终态达标率提高30%以上。②在避障检测方面,优化了限位器感知方案,提供更准确的限位器在车位中的精度定位,使泊车的深度终态更合理,避免碰撞挤压限位器导致不良体感;通过迭代老园区和低矮镜头的引擎,提升了复杂环境下的感知稳定性,支持更多车型适配;优化了动态目标的实例化测距测速,为泊车过程中的会车和避让行人提供更流畅体验;进一步优化场景识别模块,采用不同的模型和模式综合提升泊车体验。
本报告期内泊车感知团队面向中低算力平台的技术架构继续深入迭代,基于特殊的鱼眼BEV算法构建的端到端感知架构实现重要升级:感知纵深范围提升50%,并支持更多种类的悬空障碍物感知,通过3D占据栅格表示的进一步优化,3D空间理解能力提升,显著提升了对复杂立体停车环境的适应能力。体素OCC与高度场结合的方案在保持计算效率的同时,实现了厘米级地面精细感知的持续优化,为极限场景下的自动泊车提供更可靠的环境理解能力,有效提升了APA与HPA功能在复杂场景中的鲁棒性。
APA自动泊车规控在泊入行为智能化方面实现重要进展:决策模块支持规划偏移功能,用户可自由选择泊入居中或偏向某一侧便捷下车的个性化偏好,实现千人千面的泊车体验;支持自适应的终态调整,当观测到周围环境发生变化后自动提供更合理的泊车终态;支持划线自选车位的能力,为用户提供更灵活的车位选择方案,优化泊车交互流程。在路径规划方面,通过场景识别功能的完善,支持更多复杂场景下的掉头再泊入功能,并结合弹性优化策略在不同空间条件下提供差异化的路径平滑方案。在泊车效率与体验优化方面:泊车速度提升至最大5kph,常规车位实现一把入库泊车时长缩短至27秒;适配动态路径调整机制并实现止位器泊车路径截断功能,从而优化泊车终态合理性和流畅性;结合减速带感知信息优化通过策略,通过被动式调整控制量优化小坎通过性并有效抑制溜坡现象,显著提升复杂地面环境下的泊车体验。在控制算法精细化优化方面,APA横向控制算法实现重要技术升级,显著提升控制稳定性与响应精度。在泊车全流程中横向控制舒适性得到显著改善,终态误差控制能力大幅提升,验收案例测试中终态误差验收通过率达98.7%以上。同时,自动泊车路径平滑算法完成深度优化:完善双层循环锚点迭代优化流程,增强路径退化处理与自适应优化策略。路径平滑性能显著提升,曲率突变问题大幅减少,整体平滑成功率提升至96.5%,有效保障控车过程的平顺性与可控性。
泊车决策模块进一步完善了遥控泊车(RPA)等远程泊车功能。基于现有感知,在泊入过程中对动态静态障碍物有更好的逻辑交互,能够实现行人避让等功能;在泊入车位时,能够针对车位内部实时感知的障碍物信息(限位器/各类障碍物/车位边界线),决定泊入终态,实现更加拟人化的泊入体验;当泊入过程中遇到路径受限情况,能够主动逼停并进行路径重规划。在用户体验上,新增倒车循迹、泊车偏移、头泊入、自选车位等个性化体验,满足不同场景的泊车需求。
在技术优化方面,公司通过算法升级显著提升了泊车路径搜索速度,减少无效路径规划;针对不同场景下的车位决策和规划进行深度适配,大幅提升了复杂场景下的泊车成功率;通过优化碰撞检测模型,空间利用率提升15%,有效拓展了适用车位范围。该方案在与多家行业竞争对手的技术比拼中脱颖而出,得到了多家主机厂的认可。在路径平滑算法方面,采用多场景路径平滑技术,使规划曲线更加灵活流畅,显著提升了控制模块中横向与纵向跟踪控制精度,特别是在应对减速带、过坎、坡度等特殊场景时表现出色,控制稳定性达到行业领先水平。这些技术突破建立在公司前期APA技术积累基础上,此前已实现垂直车位、平行车位、斜列车位的全场景覆盖,并完成立体车库泊入验证。
在HPA技术方面,公司突破性地构建了大范围语义泊车地图,精准识别车位、立柱、地表标志等关键元素,定位精度提升50%,重定位成功率大于96.8%。规划控制模块实现了高精度的循迹代客泊车功能,无论是直行、转弯还是绕行场景,都能确保车辆严格沿记忆路线行驶。这一系列技术创新不仅巩固了公司在自动泊车领域的技术领先地位,更为后续全场景智能泊车解决方案的开发奠定了坚实基础。
(31)三维渲染引擎
三维渲染引擎提供了渲染、动画、UI等完整的图形引擎解决方案。渲染模块内置基于物理的HDR渲染管线,支持glTF文件格式,符合glTF的材质和渲染标准,可以加载大量高质量3D模型,与通用材质模型兼容,可以渲染多种材质如金属、塑料、玻璃、皮肤、车漆、车灯、皮革等。重构渲染管线,支持前向渲染及延迟渲染,支持多种反走样方案,提升渲染真实度。动画系统实现了播放及编辑模型预置骨骼动画,基于人体捕捉系统,可以实时驱动数字角色。额外支持弹簧振子系统,有助于实现头发、衣服等物体跟随摆动。为满足车载业务,开发节点动画和形变动画具有可编辑功能,从而满足三维雷达墙、相机环视等复杂动效。HMI方面在原有2DUI方案上升级为3DUI,可以在三维场景中实现引导线,轨迹线等车载相关业务需求。引擎系统模块提供丰富接口,让开发者自由组织三维场景内容,支持多种平台,已经为移动端、PC、服务器端提供稳定且高效的渲染效果。为了让用户获得更加优质的SR效果,引擎内置物体运动补偿,抖动、突变异常判断功能。针对车载低算力座舱平台,我们优化了调度指令和资源预编译系统,引擎初始化时间减少70%。优化渲染指令调用,减少50%的CPU耗时。针对车载HMI多物体渲染优化如下功能:添加场景管理,减少视野外物体所带来的额外性能消耗,CPU与GPU交互时间降低30%;支持GPU压缩纹理,进一步减少初始化时间;优化内部数据结构,相同材质球模型绘制合并,减少内存访问次数。为车载HMI提供定制化需求,支持多视角渲染、车道线优化,天气系统。着色器支持离线编译及自动更新,解决客户更新GPU后着色器不兼容的问题。由于急剧增多的车型需求,我们推出了AVM、APA编辑器,提升项目美术资源的制作、验证效率。
(32)图像修补技术
修补(Inpainting)技术是一种恢复图像与视频中缺失区域的技术,目标是让修补后的图像在视觉上自然协调,尽可能接近真实场景。修补的区域可以是被遮挡的内容、损坏的部分,或者是需要去除的对象(如水印、路人、障碍物等)。
图像修补技术,用户上传一张图像,通过交互界面选取希望填补的区域,即可生成自然的修补结果,修补区域内的图像内容与外围区域保持协调,边缘部分过渡平滑。针对任务难度及性能要求的不同,在手机端落地了两套不同的算法方案。精简版方案在确保基础修补效果的同时,重点优化模型参数量与计算量,满足手机用户对通用场景实现快速修补的需求。算法通过设计前景物体感知掩码,修补背景时避免融入前景信息。该技术支持任意大小的图像和任意形状的修补区域,生成内容清晰、自然、合理,具有较强的维持原有结构的能力,可以满足大部分用户需求。完整版方案利用稳定扩散模型的可控生成与图像编辑能力,进一步提升修补质量,优化细节还原与纹理生成,使生成结果更加无缝自然,减弱视觉突兀感,确保修补区域与原始图像高度融合。结合公司自研的高精度路人分割算法,搭建了一套完整的路人擦除方案,并着力优化主体遮挡、极小面积路人、复杂姿态等困难场景的处理结果。
视频修补技术,视频目标分割模块根据目标特征,在整段视频中跟踪用户选取的目标物体,输出像素级分割结果。通过优化特征匹配算法和记忆模块,提升了算法在多目标、小物体和遮挡等情况下的分割掩码的准确性和稳定性。通过模型压缩合并、蒸馏等技术手段,大幅提升了算法在设备端的性能,单帧处理速度满足实时要求。同时,针对AI编辑中常用的路人消除功能,开发了智能路人检测分割算法,能够在复杂场景下对背后路人进行精准的自动识别和分割,可大幅提升功能的易用性和用户体验。光流估计和补全模块是视频修补技术中的重要环节,结合光流估计与区域填充技术,通过引入端到端的二合一网络,避免了多步误差累计,提升了复杂动态场景下的光流补全质量和泛化能力。同时针对手机端做高效性能优化,降低计算开销,将单帧处理时间从1000+ms压缩至10ms,使算法速度和精度上均达到项目要求。视频修补模块基于视频序列与目标分割结果,利用光流建模时序运动信息,估计待修补区域的位移数值,创新性地提出累积误差截断、关键像素缓存等算法策略,改善了复杂场景下的模糊问题与光影问题。此外,基于并行计算、模型蒸馏量化等一系列方法,将整套视频修补方案成功部署到手机端。
2、报告期内获得的研发成果
公司持续保持高强度研发投入,围绕视觉人工智能技术及各核心应用领域,深入开展知识产权布局。截至2025年6月30日,公司拥有专利296项(其中发明专利270项)、软件著作权159项。相较于2024年末,报告期内净增发明专利6项、软件著作权5项。
四、报告期内主要经营情况
报告期内,公司实现营业收入41034.85万元,较上年同期增长7.73%;实现归属于上市公司股东的净利润8853.61万元,较上年同期增长44.06%。
以上内容为证券之星据公开信息整理,由AI算法生成(网信算备310104345710301240019号),不构成投资建议。