(原标题:曦望董事长徐冰:把大模型推理这件事,做到极致)
“谁掌握高效、可控、可持续的推理基础设施,谁就能主导AI的落地速度。”
公司情报专家《财经涂鸦》获悉,在日前举行的曦望首届Sunrise GPU Summit中,新一代推理GPU芯片启望S3正式亮相。同时,希望还披露将围绕推理场景构建的算力产品体系及共建推理云生态计划。
曦望董事长徐冰在现场分享中表示,随着大模型进入规模化应用阶段,AI产业正从“训练驱动”转向“推理驱动”。相比一次性投入巨大的训练,推理更强调长期交付能力、单位成本和系统稳定性。
他指出,曦望并不希望只做一家卖芯片的公司,而是围绕推理场景,构建“芯片+系统+生态”的整体布局,让推理算力真正成为可规模化、可持续的基础设施。
以下为徐冰现场分享全文(经编辑):
用一句话来介绍曦望,我们是一家更懂AI的GPU芯片公司,而且是国内第一家all-in推理的GPU芯片公司。曦望的使命只有一个,就是把大模型推理这件事做到极致。
为什么在2026年我们要谈推理为先?
首先是需求变了,AI已经从被训出来彻底走向能被用起来。智能体物理AI一旦爆发,推理就会从配角变成主力。根据德勤最新的报告,到2026年,推理算力占比将达到66%,超过训练。这不是趋势,这是已经在发生的一个结构性的改变。
第二,场景变了。智能体需要高频响应,实时的交互;3D的生成、视频的生成、物理世界AI,这些复杂的场景正在加速落地,多模态的推理需求也在爆发。今天大家拼的不再是谁能跑起来,而是谁能在真实的业务里跑得稳、跑得久、跑得划算。
第三,最关键的,是成本结构变了。现在推理成本在AI应用中的占比已经高达70%,直接决定了一家AI公司能否盈利,能否把商业化做好。只有把推理成本从“元级”降到“分级”,AI才有机会像水电一样成为普惠的基础设施。这才是行业的未来。
归根结底,推理的战略价值,决定的是国家和企业在AI下半场的竞争力。谁掌握高效、可控、可持续的推理基础设施,谁就能主导AI的落地速度。
曦望的前身是商汤科技的大芯片部门,我们成立于2020年,过去十年我们跟商汤,我们跟国内最早的一批大规模的AI应用,一步一个脚印,从人脸识别到自动驾驶,到今天的大模型、多模态、物理AI,我们完整地走过了整个的AI发展周期。
所以我们从第一天开始就不是在纸面上设计芯片,我们是泡在真实的业务场景里,被客户的各种需求打磨,让我们成为更懂AI的GPU芯片公司。
2025年,全球大模型token的消耗量直接涨了100倍,那也是我们最忙的一年。整个团队没日没夜全速研发,就是为了今天把打磨多年的技术和产品带到大家面前。这离不开我们两位能力互补且可以称为黄金搭档的联席CEO,王湛和王勇,我们又称为“越湛越勇”。
目前,我们团队已超过300人,聚拢了行业中极其出色的一批芯片研发精英,来自英伟达、AMD、昆仑芯、商汤等。核心技术骨干平均有15年行业经验。所以,我们是一支真正懂芯片,懂AI、能落地的特种部队。
过去一年,曦望完成近30亿元的战略融资。2025年,我们实现了破万片的交付,收入大幅增长,还拿下了多个头部客户的订单。
曦望能站稳脚跟的答案很简单——我们不是在做又一个GPU, 而是从底层架构就为推理场景重新设计,彻底重写。
曦望走的是一条差异化的路。我们专为大模型推理场景做架构设计,目标是实现极致的成本效益。我们选择把真实业务场景中的每个token的成本,每个token的能耗,还有实实在在的SLA稳定性,作为所有设计决策的根本出发点。
逻辑很简单,对于算力服务商和AI应用开发者而言,Token的成本、能耗表现、服务稳定性三大指标直接决定了最终的业务毛利率,并直接影响终端客户群体的用户体验。如果我们能够让推理的成本下降90%,并且可以提供稳定的服务,那我们就不只是市面上的另一个芯片选择,而是可以真正重写中国AI产业的损益表,助力全行业盈利增收。
从S1到S2到S3,过去8年,曦望累计投入了20亿的研发,成功量产了S1和S2。今天发布的S3,以及S4和S5的路径图,证明我们正在一步步靠近推理时代的理想状态。
S1、S2证明了三件事,我们能做出来,能量产,能被头部客户用起来。从S3开始,我们要和整个产业一起,把中国的推理成本彻底拉到“百万token一分钱”的新级别,将其变成行业新基准。
商业模式方面,我们不是一家只卖芯片的公司,而是要做围绕“芯片+系统+生态”的整体布局。第一,我们会给产业提供推理GPU卡、一体化的服务器、整机、集群方案,让大家少走弯路。第二,我们要和商汤、范式这些AI巨头,还有各类算力厂商和芯片厂商深度合作,成为现有算力系统的推理分流,以及成本优化层。
总结起来,让算力更便宜,让部署更简单,让生态更开放,是曦望正在做的事情。
在推理时代,曦望要做那个让算力变得便宜稳定到处可用的核心底座。这个底座一头连着最底层的芯片架构、制造工艺和能耗模型,是我们的技术杠杆;另一头连着国家对AI基础设施和能源效率的长期规划,是产业和政策的杠杆,中间连着云厂商算力中心,AI公司,还有千行百业,是资本和商业模式的杠杆。
过去十年,中国互联网的底层支撑是遍布全国的光纤和基站。而未来十年,中国AI时代的底层根基一定是规模化、高性价比的推理基础设施。随着AI推理红利全面释放,曦望能走出一条中国企业自主发展推理GPU的特色之路,真正实现国产AI芯片从跟跑到差异化领跑的关键跨越。
作者:苏打
编辑:tuya
出品:财经涂鸦(ID:caijingtuya)
