只需片刻时间,Gemini就能找到相关论文和非相关的论文。
而后,继续用Prompt告诉Gemini去阅读相关论文,并提取关键数据,甚至是可以要求它添加注释的那种。
如果你给Gemini一个午休的时间长度,它就能阅读200000篇论文,从中筛选出250篇并提取数据!
并且由于Gemini是多模态的,我们还可以让它对上面的数据表格做进一步的深入操作,例如更新图表:
对于学生党来说,Gemini现在也可以成为非常得力的学习助手。 例如“喂”给Gemini一张手写物理题,它不仅能看懂,而且还可以辨别手写答案的对错。
在此基础上,若是选择一个错误的题目,我们还可以跟Gemini通过自然语言沟通,让它对每一个细节步骤进行详解。
在看图像做理解和推理方面,谷歌还亮出了更多有意思的案例。 例如替换图片素材的组合方式,Gemini就能像人一样精准猜中所指的电影名字:
就连下面这种高难度的也能hold住:
再如寻找两张图片的相似之处:
更有意思的是,谷歌还特意用中文做了个demo,来展示Gemini对多张图片的组合理解能力:
那么接下来的问题就是:Gemini是如何做到的?
60页报告透露技术细节
谷歌Gemini背后技术的杀手锏,便是原生多模态(natively multimodal)。 因为以往创建多模态大模型的方法,通常是为不同的模态训练单独的组件,然后将它们拼接在一起,大致模拟其中的一些功能。 这样训练出来的模型虽然有时可以很好地执行某些任务(比如描述图像),但在面对更具概念性和复杂推理的情况下,就会出现表现不佳的结果。 而谷歌Gemini所强调的原生多模态,是指从一开始就对不同的模态进行预训练,然后用额外的多模态数据对其进行微调,以此来进一步完善大模型的有效性。 谷歌对此表示:
这样的训练方法,有助于Gemini从头开始无缝地理解和推理各种输入,远远优于现有的多模态模型;而且它的功能在几乎每个领域都是最先进的。 |