(原标题:高端算力为何持续紧缺?算力租赁厂商议价权提升背后)
全球AI推理需求正以指数级速度增长,直接导致高端算力资源陷入结构性短缺。根据纽约数据提供商Ornn的数据,2026年3月,英伟达最先进的Blackwell系列GPU在云端数据中心的现货租赁价格已达每小时4.08美元,较两个月前的2.75美元上涨了48%。
摩根大通预测,中国的AI推理算力消费量(以Token计)将从2025年的10千万亿增长至2030年的3900千万亿,五年内增幅高达369倍。需求端的爆发式增长与供给端的多重约束,共同构成了当前算力市场的核心矛盾。
当前高端算力市场的供需失衡已达到近年来的峰值。行业研究机构SemiAnalysis在2026年4月3日发布的报告指出,截至2026年3月,英伟达H100 GPU一年期租赁合约价格已攀升至每GPU每小时2.35美元,较2025年10月的1.70美元上涨了近40%。报告明确指出,全行业GPU算力资源已基本全线售罄,现货市场采购难度堪比旺季抢购末航班机票。
供给端的紧张是全方位的。SemiAnalysis报告显示,即便是采购8节点(64卡)的H100或H200集群也已变得十分困难,其调研的半数供应商表示相关产能已完全售罄。更值得注意的是,新一代Blackwell系列GPU的交付周期已拉长至2026年6-7月,甚至2026年8-9月上线的全部产能也已被提前预订一空。
AI应用从“训练时代”进入“推理时代”是驱动本轮算力需求爆发的根本逻辑。训练阶段是集中式、一次性的算力消耗,而推理阶段是分布式、持续性的算力消耗。全球AI大模型聚合平台OpenRouter的数据显示,在2026年3月30日至4月5日这一周,全球AI大模型词元(Token)总调用量达到了27万亿,环比增长18.9%。
一个更具标志性的数据是,中国AI大模型的词元调用量已经连续5周超过美国。这意味着,随着国内AI应用生态的成熟和用户规模的扩大,推理算力需求正进入一个自我强化的增长循环。元旦至今的三个月内,仅国内AI推理任务的Token调用量就暴增了250%。
全球主要云服务商的集体提价,是算力紧缺从上游传导至下游的明确信号。2026年1月,亚马逊云科技(AWS)二十年来首次上调了面向大模型训练的机器学习容量块价格,涨幅约15%。紧随其后,谷歌也宣布将在5月1日上调数据传输费用。
国内云厂商迅速跟进。2026年4月,阿里云宣布对AI算力和相关存储产品提价5%到34%。根据东吴证券2026年4月14日发布的研报分析,云巨头的调价行为直接催化了大量中小企业转向第三方算力租赁市场,以寻求更具成本效益的解决方案。
在严重的供需错配下,能够快速交付、规模化部署的算力租赁服务商获得了前所未有的市场主动权。东吴证券分析师在研报中明确指出:“当前算力紧缺程度较高,算力租赁厂商的行业议价权有望提升。”
议价权的提升直接体现在商业模式和定价能力上。企业自建算力中心面临建设周期长、资本开支巨大、技术门槛高等现实障碍。以AWS涨价为例,按企业日均训练8小时计算,涨价后月成本直接增加1200美元,一年成本增加近44万美元。对于预算有限的中小企业而言,第三方租赁成为更可行的选择。
算力租赁行业的商业模式正在发生深刻变革。东吴证券研报指出,其业务模式正从单纯的裸算力出租升级为模型服务或Token分成模式,即从“卖算力”转向“卖Token”。这一转变是行业价值重估的关键。
“卖Token”模式意味着算力租赁商不再仅仅是基础设施的提供者,而是深度参与到AI应用的价值链中,根据模型的实际调用量和产生的价值进行分成。这种模式将算力租赁商的收入与下游AI应用的商业成功更紧密地绑定,提供了更高的收入弹性和利润空间。
商业模式的升级直接推动了资本市场估值逻辑的变迁。东吴证券分析师认为,从“卖算力”到“卖Token”的转变,有望大幅提升算力租赁公司的盈利能力,并推动其估值体系从传统的市盈率(PE)向市销率(PS)切换。
PS估值法更适用于高增长、尚未完全盈利但营收规模快速扩张的科技公司。当算力租赁公司的收入来源从固定的租赁费转变为与AI应用流量挂钩的分成收入时,其营收的成长性和可预测性将显著增强,从而更符合PS估值框架的适用条件。
短期内,高端算力的供需矛盾难以根本性缓解。核心制约因素在于高端GPU的产能瓶颈和漫长的交付周期。与此同时,存储等上游关键零部件的价格上涨进一步加剧了供给压力。SemiAnalysis报告指出,2026年1月成为存储价格的重要拐点,DRAM与NAND闪存价格进入2026年一季度后出现抛物线式跳涨。
长期来看,伴随Agent应用、多模态AI生态的持续爆发,全球Token用量正迎来新一轮加速增长。摩根大通预测的369倍增长空间表明,推理算力需求的天花板远未到来。算力租赁作为衔接产业爆发与供给瓶颈的核心解决方案,其战略价值和市场地位将在未来数年内持续凸显。
