史上最强大模型–Gemini重磅来袭!

12月6日,Google正式发布多模态大模型Gemini,有望超越最强的GPT4模型。

这是官方介绍:Introducing Gemini: Google’s most capable AI model yet (blog.google)

Gemini多模态模型将会逐步应用到Google旗下的各种产品中。令Google自豪的是,Gemini在MMLU测试中成为第一个超越人类专家的模型。MMLU,也叫做Measuring Massive Multitask Language Understanding,可以衡量大语言模型在大规模多任务方面的理解能力。

在近期的MMLU测试中,GPT4的得分为86.4,而gemini的得分已经超过了90。在32项学术基准的测试中,Gemini经超过了GPT4,展现了强大的推理能力。在MMMU多模态,跨领域推理任务测试中,Gemini Ultra也完胜GPT4V模型。

模型简介:Gemini – Google DeepMind

Gemini 1.0包含了三个版本,分别是ultra、 pro和nano。Gemini ultra更适合复杂的任务,相当于GPT4,Pro模型相当于GPT 3.5,Nano则适合移动端用户使用,是一个轻量化模型。

根据Google的说明,Gemini Ultra 将于2024年初登陆 Bard,为用户提供Bard Advanced服务,预计该功能会向gp4一样向使用者收取一定的费用。Gemini pro目前已经可以在bard中使用,也将成为应用最广泛的多模态模型。

Gemini将会应用到Google Pixel 8 Pro手机中:Google Pixel December feature drop: New Gemini AI-powered updates (blog.google),这属于是捆绑销售了。Gemini模型可以总结手机中的任意文字内容,无需联网也能使用。此外,Gemini Nano还支持自动回复功能,并根据不同的问题快速生成对白。

Gemini是一个多模态模型,无论输入任何图像,都可以获得对应的输出。为了测试Gemini的多模态推理能力,Google提供了有趣的演示动画:

1. 测试gemini的图像识别和交互能力。

2. 和gemini互动,测试看图猜谜游戏。

3. 尝试各种互动游戏。

4. 推理能力测试,让gemini发挥想象力。

5. 手绘图像识别加推理能力测试。

6. 复杂的连线游戏。

7. 简笔图像识别和推理。

8. 音频多模态测试。

9. 视频读取能力测试。 

10. 音频理解和互动能力。                                    

从以上几组测试可以看出Germany具备读取和理解文本、音频、图像和视频的能力。除了基本的多模态能力,Gemini还可以广泛应用于科研和编程领域。

Gemini 1.0强大的多模态推理能力可以帮助科学家从数以千计的论文中筛选精确的数据,并标注数据来源和准确度。Gemini还能利用其多模态推理能力在后台自动更新代码,时时更新图表数据。

Gemini还可以帮助解答任何年级的作业,识别手写的错误答案,并提供正确的解答。最重要的是,Gemini还能指出答案出错的原因。即使是复杂的物理问题,Gemini也能提供正确的解答步骤。

Gemini还具备强大的编程能力,可以理解并生成Python Java C++等主流编程语言。AlphaCode2则是Gemini针对编程人员创建的模型,相对于之前发布的AlphaCode,该模型的性能提升了85%以上。AlphaCode2可以和程序员合作,大幅提高编程效率,这也是未来的编程模式。

总之,Gemini的发布将有机会挑战GPT4的地位,多模态大语言模型也将成为未来的趋势。

发表回复