基于Gemini的“Project Ellmann”

近日,谷歌的一个团队提议使用人工智能技术,使用手机数据(如照片和搜索)创建用户生活的“鸟瞰图”,这个想法被称为“埃尔曼计划”。这个想法是使用像Gemini这样的LLM来获取搜索结果,发现用户照片中的模式,创建聊天机器人并“回答以前不可能的问题”。它指出,埃尔曼的目标是成为“你的人生故事讲述者”。

目前尚不清楚该公司是否计划在谷歌相册或任何其他产品中提供这些功能。根据该公司的一篇博客文章,谷歌相册拥有超过 1 亿用户和 4 万亿张照片和视频。

埃尔曼项目只是谷歌提议利用人工智能技术创造或改进其产品的众多方式之一。12月6日,谷歌推出了其最新的“最强大”和最先进的人工智能模型 Gemini,在某些情况下,它的表现优于 OpenAI 的 GPT-4。该公司计划通过谷歌云将Gemini授权给广泛的客户,供他们在自己的应用程序中使用。Gemini 的突出特点之一是它的多模态,这意味着它可以处理和理解文本以外的信息,包括图像、视频和音频。

在最近的一次内部峰会上,Ellman项目与Gemini团队一起展示了照片。他们写道,在过去的几个月里,这些团队一直在确定大型语言模型是使这种鸟瞰式方法成为现实的理想技术。

Ellmann 可以使用传记、以前的时刻和随后的照片来更深入地描述用户的照片,而不仅仅是“带有标签和元数据的像素”,演示文稿指出。它建议能够识别一系列时刻,例如大学时代、工作岁月和作为父母的时光。

“如果没有鸟瞰你的生活,我们就无法回答棘手的问题或讲好故事,”其中一段描述与一个小男孩在泥土中与狗玩耍的照片旁边写道。

“我们翻阅您的照片,查看它们的标签和位置,以确定一个有意义的时刻,”一张演示幻灯片写道。“当我们退后一步,全面了解你的生活时,你的总体故事就会变得清晰。”

该演示称,大型语言模型可以推断出用户孩子出生等时刻。这个法学硕士可以利用树上更高的知识来推断这是杰克的出生,他是詹姆斯和杰玛的第一个也是唯一的孩子。

“LLM对于这种鸟瞰方法如此强大的原因之一是,它能够从这棵树的所有不同高度获取非结构化的上下文,并使用它来改进它对树其他区域的理解,”一张幻灯片写道,旁边是用户各种生活“时刻”和“章节”的插图。

演示者给出了另一个示例,确定一个用户最近参加了同学聚会。“他毕业已经整整10年了,到处都是10年未见的面孔,所以这可能是一次重逢,”该团队在介绍中推断道。

该团队还演示了“Ellmann Chat”,并描述:“想象一下打开 ChatGPT,但它已经知道你生活的一切。你会问它什么?“

它显示了一个示例聊天,其中用户问:“有宠物吗?“它的回答是肯定的,用户有一只穿着红色雨衣的狗,然后提供了狗的名字和它最常看到的两个家庭成员的名字。

聊天的另一个例子是用户询问他们的兄弟姐妹上次访问是什么时候。另一个人要求它列出与他们居住地相似的城镇,因为他们正在考虑搬家。埃尔曼对两者都给出了答案。

其他幻灯片显示,Ellmann 还总结了用户的饮食习惯。“你似乎很喜欢意大利菜。有几张意大利面食的照片,还有一张比萨饼的照片。它还说,用户似乎很喜欢新食物,因为他们的一张照片有一个菜单,上面有一道它不认识的菜。

该技术还根据用户的屏幕截图确定了用户正在考虑购买的产品、他们的兴趣、工作和旅行计划。它还表示,它将能够了解他们最喜欢的网站和应用程序,并举例说明Google Docs,Reddit和Instagram。

大型科技公司竞相创造人工智能驱动的“记忆”
拟议中的埃尔曼项目可以帮助谷歌在科技巨头之间的军备竞赛中创造更个性化的生活记忆。

多年来,Google Photos 和 Apple Photos 一直在提供“回忆”,并根据照片趋势生成相册。

去年11月,谷歌宣布,在人工智能的帮助下,谷歌相册现在可以将相似的照片组合在一起,并将屏幕截图整理成易于查找的相册。

苹果在6月份宣布,其最新的软件更新将包括其照片应用程序识别照片中的人,狗和猫的能力。它已经对人脸进行了分类,并允许用户按名称搜索它们。

苹果还宣布了即将推出的日记应用程序,该应用程序将使用设备上的人工智能来创建个性化建议,以提示用户根据最近的照片、位置、音乐和锻炼来撰写描述他们记忆和经历的段落。

但苹果、谷歌和其他科技巨头仍在努力解决正确显示和识别图像的复杂性。

发表回复