立即订阅

AI大战进入实体化阶段 Google刚刚发布的PaLM-E模型有哪些亮点?

2023年03月14日 04:03 来源于:共富财经
(原标题:AI大战进入实体化阶段,谷歌刚刚发布的PaLM-E模型有哪些亮点?)3月8日,财联社(编辑石)在过去的几个月里,ChatGPT

(原标题:AI大战进入实体化阶段,谷歌刚刚发布的PaLM-E模型有哪些亮点?)

3月8日,财联社(编辑石)在过去的几个月里,ChatGPT引发的AI热潮向人类展示了通用语言模型的生产力前景。就像聊天机器人逐渐成为生产力工具一样,用通用语言模型驱动真正的机器人也被提上日程。

本周,老牌AI制造商谷歌和柏林工业大学的研究人员共同发布了PaLM-E视觉语言模型,通过同时处理图像和语言文本,解锁了人类与机器人交互的新篇章。

(预印论文,来源:谷歌,柏林工业大学)顾名思义,PaLM-E模型源于谷歌的大型语言模型PaLM,E的意思是具体化。通过将通用语言模型与视觉转换模型ViT相结合,PaLM-E成功地使AI同时具备了“理解文字”和“读图”的能力。它不仅能输出文字,还能输出指令,使机器人的智能跃上了一个新台阶。

据研究人员介绍,PaLM和ViT的结合使得PaLM-E的参数数量高达5620亿,也是世界上已知的最大的视觉语言模型。

回到资本市场最关心的问题,这个听起来很强大的AI模型能做什么?研究人员还给出一系列案例,帮助外界理解这种模式的妙处。

(PaLM-E模型的案例,来源:谷歌,柏林工业大学)首先,具有视觉属性的AI模型将具备解读图片和推理的能力。比如你可以通过一张禁止通行交通标志的图片来回答“这条路我可以骑自行车吗”(自行车除外);餐厅的手写菜单可以通过OCR识别,可以算出账单;或者通过识别烘焙材料的一系列照片,将“制作蛋糕胚胎”的过程传达给机器人。

此外,在AI模型与机器人结合的实验演示中,机器人在收到“从抽屉中取出年糕”的指令后,可以成功地从十多个打开的抽屉中找到年糕,并交给研究人员。

(图片来源:谷歌,柏林工业大学)在后续的实验中,研究人员还要求机器人完成“将不同角落的所有色块按颜色堆叠”的指令和“将绿色色块推到乌龟旁边”的指令,即使机器人之前从未见过这个乌龟饰品,也能顺利完成任务。

(图片来源:谷歌,柏林工业大学)虽然从演示视频来看,由于演示机器人的设计相对简单,它在执行指令时仍然“笨拙”。但随着PaLM-E模型赋予机器思考如何执行人类指令的能力,工业应用和工业设计的突破指日可待。也许在不久的将来,会出现一种风靡全球的智能机器人硬件。

值得一提的是,作为AI大战的老对手,微软也布局了“图像语言模型”的数量。在今年2月底发表的研究中,微软演示了如何使用ChatGPT为DJI的泰洛无人机编写“寻找饮料”程序。

(来源:微软)

关键词:
友情链接