打破多模态边界：谷歌Gemini Omni问世，自然语言即可“剪大片”_股票频道

（原标题：打破多模态边界：谷歌Gemini Omni问世，自然语言即可“剪大片”）

作者/李海

出品/科技深报

2026年5月20日，谷歌I/O开发者大会如期落幕，这场被称为“科技圈春晚”的盛会中，DeepMind负责人哈萨比斯与CEO皮查伊同台，重磅推出全模态模型Gemini Omni，其“从任何输入生成任何内容”的定位，瞬间打破了AI多模态领域的现有边界。

不同于普通AI视频工具的简单拼接，该模型可通过自然语言指令完成视频深度编辑，从切换镜头角度到植入个人数字分身，从还原物理规律到推测情节走向，每一个细节都彰显着谷歌对AI产业的全新布局。

数据显示，截至2026年一季度，谷歌云业务收入同比增长63%，AI订单积压达4620亿美元，其中基于生成式AI模型的产品收入同比暴涨近800%。Gemini系列模型付费订阅用户总数达3.5亿，App月活用户从去年的4亿翻倍至9亿，每月处理的token量突破3200万亿个，较去年增长7倍之多。

从战略层面剖析，Gemini Omni是谷歌突破现有AI局限、向AGI迈进的核心抓手。

哈萨比斯在此前访谈中曾直言，当前AI单纯扩容上下文窗口的模式成本高昂，真正的AGI需具备持续学习与记忆能力，而Gemini Omni正是这一理念的实践。

同时，谷歌同步布局安全领域，所有Omni生成视频均嵌入SynthID数字水印，还推动OpenAI、ElevenLabs等企业采用该技术，试图掌握AI内容溯源的行业话语权。

但光鲜的发布背后，是谷歌与行业巨头的激烈博弈，以及自身的战略隐忧。

当前AI产业呈现“训练靠英伟达，推理与应用看谷歌”的格局，英伟达凭借CUDA平台占据90%高端训练市场，其新一代Vera Rubin平台能效提升10倍，生态壁垒短期内难以撼动。

而谷歌自研TPU v8芯片虽在能效比上领先英伟达40%，但生态封闭性导致开发者迁移成本居高不下。

此外，Gemini Omni Flash虽已上线，却面临业界两极评价，有开发者反馈其性能不及行业顶尖视频模型，且API价格偏高，叠加运行成本上涨5倍的压力，商业化落地仍存挑战。

更深层次来看，谷歌推出Gemini Omni，本质上是在巩固自身生态护城河。

通过将该模型嵌入Gemini App、Google Flow、YouTube Shorts等核心产品，谷歌实现了“创作-编辑-分发”的全链路覆盖，既服务个人用户，也向企业开放API，试图将AI能力渗透至内容创作、企业服务等全场景。

这一布局背后，是谷歌应对微软、OpenAI等对手的迫切需求，当微软将GPT模型深度整合至Office生态，OpenAI发力Agent应用，谷歌必须以全模态优势守住AI应用的核心入口。

哈萨比斯直言，Gemini Omni正推动AI从任务执行向AGI迈进，但这绝非一蹴而就。对于谷歌而言，Gemini Omni的发布只是起点，如何平衡技术突破与成本控制、打破生态壁垒、应对市场质疑，将成为其抢占AI产业制高点的关键。

精彩推荐

内容精选