AI产品狙击手

专注于大语言模型LLM,文生图模型Stable Diffusion, 视频生成模型等免费AI工具的分享和应用,助你掌握最前沿的AI技术

0%

Gemini 2.0:6大原生多模态炸裂新功能

Gemini 2.0 原生多模态模型炸裂功能初体验啊!它在benchmarks上有多炸裂我这就不说了,这里是迫不及待的想和大家分享它的几个炸裂功能。首先,我们进入到谷歌ai studio上进行gemini 2.0的访问,免费的credits足够我们用的了。先试下第一个功能实时语音,

Hi Gemini, how are you,

(Hi,I am doing great , thanks for asking, how can I help you today)

can you speak faster please, (sure , …..), can you speak in a way that you are so quiet and whispering?
(回答: ….)

牛逼吧?

第二个功能,视频对话。

can you let me know what i am holding now, and count number of items。

(回答:。。。。)

第三个功能,屏幕分享。

what do you see in my screen,

( i can se…),

ok , what do you see now? and what’s the model i am using?

(回答:。。。)

第四个功能,空间理解,它能分割图片里面的物体,可以圈定这些识别出来的对象并给出他们的名字,也可以用3D的方式圈定

第五个功能,视频分析,我们可以上传一个视频,然后给你解析这个视频的内容并让你和视频进行对话,你也可以生成关键时间线总结等,

第六个功能,地图探索,接入的是google map的api,比如告诉它我想去一个寒冷的地方,然后它就帮我定位到俄罗斯去了

好,以上就是今天要跟大家分享的Gemini 2.0的炸裂功能,其实还有很多牛逼功能没有时间跟大家一个个细说,比如图片生成和图片对话式编辑,这里的图片生成功能是原生的,也就是说不是像马斯克的grok那样接入的是第三方的Flux模型来实现的,这也是为什么Gemini 的多模态叫做原生多模态的原因

好,今天就先到这,喜欢的赶紧玩起来吧!