首页 - 股票 - 公司新闻 - 正文

打破多模态边界:谷歌Gemini Omni问世,自然语言即可“剪大片”

(原标题:打破多模态边界:谷歌Gemini Omni问世,自然语言即可“剪大片”)

作者/李海

出品/科技深报

2026年5月20日,谷歌I/O开发者大会如期落幕,这场被称为“科技圈春晚”的盛会中,DeepMind负责人哈萨比斯与CEO皮查伊同台,重磅推出全模态模型Gemini Omni,其“从任何输入生成任何内容”的定位,瞬间打破了AI多模态领域的现有边界。

不同于普通AI视频工具的简单拼接,该模型可通过自然语言指令完成视频深度编辑,从切换镜头角度到植入个人数字分身,从还原物理规律到推测情节走向,每一个细节都彰显着谷歌对AI产业的全新布局。

数据显示,截至2026年一季度,谷歌云业务收入同比增长63%,AI订单积压达4620亿美元,其中基于生成式AI模型的产品收入同比暴涨近800%。Gemini系列模型付费订阅用户总数达3.5亿,App月活用户从去年的4亿翻倍至9亿,每月处理的token量突破3200万亿个,较去年增长7倍之多。

从战略层面剖析,Gemini Omni是谷歌突破现有AI局限、向AGI迈进的核心抓手。

哈萨比斯在此前访谈中曾直言,当前AI单纯扩容上下文窗口的模式成本高昂,真正的AGI需具备持续学习与记忆能力,而Gemini Omni正是这一理念的实践。

同时,谷歌同步布局安全领域,所有Omni生成视频均嵌入SynthID数字水印,还推动OpenAI、ElevenLabs等企业采用该技术,试图掌握AI内容溯源的行业话语权。

但光鲜的发布背后,是谷歌与行业巨头的激烈博弈,以及自身的战略隐忧。

当前AI产业呈现“训练靠英伟达,推理与应用看谷歌”的格局,英伟达凭借CUDA平台占据90%高端训练市场,其新一代Vera Rubin平台能效提升10倍,生态壁垒短期内难以撼动。

而谷歌自研TPU v8芯片虽在能效比上领先英伟达40%,但生态封闭性导致开发者迁移成本居高不下。

此外,Gemini Omni Flash虽已上线,却面临业界两极评价,有开发者反馈其性能不及行业顶尖视频模型,且API价格偏高,叠加运行成本上涨5倍的压力,商业化落地仍存挑战。

更深层次来看,谷歌推出Gemini Omni,本质上是在巩固自身生态护城河。

通过将该模型嵌入Gemini App、Google Flow、YouTube Shorts等核心产品,谷歌实现了“创作-编辑-分发”的全链路覆盖,既服务个人用户,也向企业开放API,试图将AI能力渗透至内容创作、企业服务等全场景。

这一布局背后,是谷歌应对微软、OpenAI等对手的迫切需求,当微软将GPT模型深度整合至Office生态,OpenAI发力Agent应用,谷歌必须以全模态优势守住AI应用的核心入口。

哈萨比斯直言,Gemini Omni正推动AI从任务执行向AGI迈进,但这绝非一蹴而就。对于谷歌而言,Gemini Omni的发布只是起点,如何平衡技术突破与成本控制、打破生态壁垒、应对市场质疑,将成为其抢占AI产业制高点的关键。

APP下载
广告
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备310104345710301240019号。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-