首页 - 股票 - 证券要闻 - 正文

AI大战进入实体化阶段 谷歌刚发布的PaLM-E模型有哪些亮点?

来源:财联社 作者:史正丞 2023-03-08 20:47:00
关注证券之星官方微博:

(原标题:AI大战进入实体化阶段 谷歌刚发布的PaLM-E模型有哪些亮点?)

财联社3月8日讯(编辑 史正丞)过去几个月里,由ChatGPT引发的AI热潮向人类展现了通用语言模型的生产力前景。就在聊天机器人逐渐变成生产力工具之时,利用通用语言模型驱动真正的机器人也已经提上日程

本周老牌AI大厂谷歌与柏林工业大学的研究人员联合发布PaLM-E视觉语言模型,通过同时处理图像和语言文本,解锁人类与机器人交互的新篇章

(预印本论文,来源:谷歌、柏林工业大学)

顾名思义,PaLM-E模型源自于谷歌的大型语言模型PaLM,E指的就是具象化(Embodied)。通过将通用语言模型与视觉转换模型ViT相结合,PaLM-E成功实现让AI同时具备“理解文字”和“读懂图片”的能力,不仅能够输出文字,还能输出指令使得机器人的智能化跃上一个新的台阶

研究人员介绍称,PaLM和ViT的结合,使得PaLM-E的参数量最高可达5620亿组,也是全球已知的最大视觉语言模型。

回归到资本市场最关心的问题,这个听上去很厉害的AI模型,到底能干什么事情呢?对此研究人员也给出一系列案例,帮助外界理解这个模型的妙处。

(PaLM-E模型的案例,来源:谷歌、柏林工业大学)

首先,具备视觉属性的AI模型将拥有解读图片并进行思维推理的能力。例如可以通过一张禁行交通标志(除自行车外)的图片,来解答“我能否在这条马路上骑自行车”;通过OCR识别餐馆的手写菜单,能进行账单的计算;或是通过识别一系列烘焙材料的照片,向机器人传达“制作蛋糕胚”的流程。

此外,在AI模型与机器人结合的实验演示中,机器人得到“从抽屉里拿出米饼”的指令后,能够顺利地从十多个开放式抽屉中找到米饼,拿给研究人员。

(来源:谷歌、柏林工业大学)

在后续的实验中,研究人员还要求机器人完成“将所有色块按颜色堆放到不同角落”的指令,以及将“绿色色块推到乌龟旁边”的指令,即便机器人之前没有见过这只乌龟摆件,也能顺利地完成任务。

(来源:谷歌、柏林工业大学)

虽然从演示视频中来看,受限于演示机器人较为简单的设计,执行指令的时候仍显得“笨手笨脚”。但随着PaLM-E模型赋予机器思考如何执行人类指令的能力,工业应用和工业设计上的突破也指日可待。或许在不久的将来,就会出现一款风靡全球的智能机器人硬件。

值得一提的是,作为AI大战的老对手,微软也已经在“图像+语言模型”的路数上有所布局。在今年2月底发表的研究中,微软就展现了如何使用ChatGPT为大疆Tello无人机编写“找饮料”程序的案例。

(来源:微软)

微信
扫描二维码
关注
证券之星微信
APP下载
相关股票:
好投资评级:
好价格评级:
证券之星估值分析提示机器人盈利能力一般,未来营收成长性较差。综合基本面各维度看,股价偏高。 更多>>
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-