首页 资讯 财经 国内 专栏 生活 关注 图库 艺术 关于

科技

旗下栏目: 科技 汽车 健康 旅行

突发!谷歌发布史上最强大模型Gemini,打爆GPT-4(2)

科技 | 发布时间:2023-12-07 | 人气: | #评论#
摘要:只需片刻时间,Gemini就能找到相关论文和非相关的论文。 而后,继续用Prompt告诉Gemini去阅读相关论文,并提取关键数据,甚至是可以要求它添加注释的那


 

只需片刻时间,Gemini就能找到相关论文和非相关的论文。


 

而后,继续用Prompt告诉Gemini去阅读相关论文,并提取关键数据,甚至是可以要求它添加注释的那种。


 

如果你给Gemini一个午休的时间长度,它就能阅读200000篇论文,从中筛选出250篇并提取数据!


 

并且由于Gemini是多模态的,我们还可以让它对上面的数据表格做进一步的深入操作,例如更新图表:


 

对于学生党来说,Gemini现在也可以成为非常得力的学习助手。

例如“喂”给Gemini一张手写物理题,它不仅能看懂,而且还可以辨别手写答案的对错。


 

在此基础上,若是选择一个错误的题目,我们还可以跟Gemini通过自然语言沟通,让它对每一个细节步骤进行详解。


 

在看图像做理解和推理方面,谷歌还亮出了更多有意思的案例。

例如替换图片素材的组合方式,Gemini就能像人一样精准猜中所指的电影名字:


 

就连下面这种高难度的也能hold住:


 

再如寻找两张图片的相似之处:


 

更有意思的是,谷歌还特意用中文做了个demo,来展示Gemini对多张图片的组合理解能力:


 

那么接下来的问题就是:Gemini是如何做到的?

 

60页报告透露技术细节

 

谷歌Gemini背后技术的杀手锏,便是原生多模态(natively multimodal)。

因为以往创建多模态大模型的方法,通常是为不同的模态训练单独的组件,然后将它们拼接在一起,大致模拟其中的一些功能。

这样训练出来的模型虽然有时可以很好地执行某些任务(比如描述图像),但在面对更具概念性和复杂推理的情况下,就会出现表现不佳的结果。

而谷歌Gemini所强调的原生多模态,是指从一开始就对不同的模态进行预训练,然后用额外的多模态数据对其进行微调,以此来进一步完善大模型的有效性。

谷歌对此表示:

 

这样的训练方法,有助于Gemini从头开始无缝地理解和推理各种输入,远远优于现有的多模态模型;而且它的功能在几乎每个领域都是最先进的。
责任编辑:网络
首页 | 资讯 | 财经 | 国内 | 专栏 | 生活 | 关注 | 图库 | 艺术 | 关于 | 名人堂

Copyright © 2014-2016 中国经济报道网 版权所有 京ICP备16067457号

电脑版 | | 移动版

Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。