今天清晨,一年一度的Google I/O会议在加利福尼亚州的Mountain View中大量开放。 Google将阻止其最终动作数周,并终于准备好让它屏住呼吸,轰炸浪直接到达。负面评论还发送了一名前线记者。 Shichao不仅观看了会议,而且与Google首席执行官Sundar Pichai有着密切的联系。扩展全文
步行了很长时间,让我们将所有内容带到I/O到该地点,看看Google做了什么。
总而言之,Google目前已经完成了所有更新,并且针对不同产品的AI应用程序完全开放。
要给我们的第一件事是语言模型。
作为Google领先的品牌之一,Gemini 2.5 Pro自3月推出以来一直在做Wellap,领导着Webdev Arena和Lmarena等级。
目前,Google将继续基于Gemini 2.5 Pro探索,添加了深度的心理模式,并推出了Gemini 2.5 Pro Deep TH墨水。
尽管没有发布具体的技术细节,但可以从他们释放的图片中可以看出,Gemini 2.5 Pro(可能深入思考)对数学,编程和多模式推理具有惊人的影响,甚至在数学中挤满了Openai的O3。
凭借出色的模型作为支持,Google试图在此码头中发挥新作用。
他们通过更新实时API来启动本机音频输出功能,这不仅是人类品尝声的输出,而且还捕获了对话的状况并自动调整音调。
在双子座的祝福中,Live AI不是像一个人那样说话,而是像一个人一样说话。
对于特定结果,您可以看到以下视频:
我不知道你的感受,当shichao在第十秒听到魔鬼的耳语时,他感到了鸡皮ump。
此外,Google还具有Gemini 2.5 Flash的主要模型,该模型侧重于效率,并推出了AI代理-Project Mariner。
值得注意的是对于常规的模型更新,他们还启动了双子座扩散,该扩散不使用变压器体系结构,并且与Gemini 2.0 Flash-Lite相当,但比这快五倍。
尽管变压器体系结构已经使用了很长时间,但它具有较高的计算和缓慢的速度成本。因为没有其他方法,所以每个人都需要使用它。
此时,Google使用分页模型播种来挑战大型模型的基础体系结构。如果双子座扩散仍然有未来表现的空间,这可能是一个令人不安的变化。
在谈论大型模型之后,让我们看一下多峰一代方面,模式更多。
Imagen 4,Weo 3,Lyria 2亲自启动,Google希望制作照片,视频和音频。
从官方示例中可以看出,Imagen 4在关注立即单词的能力上有一个完整的痕迹,并可以制作出最多2K分辨率的照片,并在该地区带有清晰的图片和细节。
根据d在Imagen 3上,Imagen 4具有更高的总体图像质量,遵循说明的能力更强,并且速度更快。
在视频方面,VEO 3不仅升级了基于VEO 2的质量,而且还升级了带有音频的First视频模型。它不仅伴随着对话,而且还可以根据需要提供一些音乐。
根据迅速单词来查看官方案例,Veo 3对场景环境,对话音调和角色动作表达式有很好的了解,并且生成的视频非常自然。
最后,有一代Lyria 2的音频一代,这也很棒。
应该说的是,秘鲁风格的lyria 2具有鼓声,电吉他和贝斯,彼此相适合,具有明亮的节奏和光滑的旋律,没有任何AI痕迹。
目前,Imagen 4和Lyria 2在Google的Vertex AI平台上启动。 VEO 3可以加入等待名单,有兴趣的朋友可以去体验它。
如果我们在上面看到的所有零件是parTS,如果我们想在下面谈论的是Google如何将这些零件结合在一起,并将它们纳入产品中以充分展示AI产品的加强。
将会受到影响的第一件事是Google在搜索中启动的AI模式。
自2022年Chatgpt推出以来,大型车型发生了风暴,并对Google的主要搜索业务产生了重大影响。
如果您不打败它,请加入。目前,Google使用多模式功能和大型模型的推理将Gemini直接引导到传统搜索中,以调整用户想要的内容并将其直接喂入他们的嘴中。
基础AI模式使用Google的粉丝范围技术,该技术可能会破坏子主题问题,同时执行多个查询,并通过Internet找到答案。
Google表示,在添加了AI的整体分析之后,用户对搜索内容更加满意并增加了其10%的使用频率,这是SU最su的频率之一在过去十年中,搜索领域的探索。
似乎传统的搜索增加了AI仍然可以赢得用户的心。
除搜索外,Google还剥离了多模式生成技术,并使用了VEO + Imagen + Gemini来创建薄膜制作工具流。
该流程可以使用Gemini + Imagen生成图像,然后使用Gemini + Veo根据图像创建视频,并且还可以继续故事。
从计划的官方示例来看,流程图的表达确实非常好。空气是否会失业到董事? 。
Hindonly软件更新,还有位于数字电子产品。
Google已将旧项目裸照3D星线完全升级到Google Beam,使用六个摄像头从不同角度捕获图像,然后使用AI算法包括视频流并将其投影在3D显示屏上。
但是,Google Beam更新的最大亮点是其实时翻译功能在。
这项新功能使来自不同国家的人们可以用自己的语言讲话,即使另一方不了解您在说什么,他们也会听到实时翻译。
在这次会议上再次出现了另一个意外的产品,该会议是Google Glass在2023年因死亡而受到惩罚。
目前,Google终于投降了制造硬件的想法,而只是完成了它是好的任务 - 系统。然后,与我们的国内XReal合作,它推出了基于Android XR平台的最新玻璃产品:Aura项目。
近年来,Android XR作为下一代计算设备的系统,将Google的技术积累与AI,VR和AR结合在一起,在双子座期间带来了头戴式耳机和眼镜。
Project Aura支持实时AI翻译,还可以发送文本消息,确定相机看到的搜索和问题的内容,并具有内存功能。
随着Google的进入,应该在将来的智能眼镜田。
经过大量磁盘,Google I/O目前的内容远非完成,而且它们太全面了。
除了ITAAS中提到的内容外,还有编程代理Jules,一键式AI拟合以及购物图,Firebase升级,SynthId Digital Watermark,一种可以在手机上运行的大型Gemma 3N型号,可用于办公室的NoteBookLM等等。
有很多事情,恐怕一切都破产了。 Google还仔细推出了Google Ultra订阅软件包,每月的价格仅为124.99元,将使整个Google Family Bucket带回家!
通常,I/O会议表明Google作为巨型技术的野心。
Google凭借丰富的才华和庞大的资金,需要做所有事情。
他们长期以来一直删除了通过降低维度的大型模式使用的被动情况,并转向防御进攻。他们可以平静地等待别人播放Merkado并尝试和错误,然后在时间成熟并找到自己的节奏时迅速进入市场。
AI竞赛仍在完整,本次会议不仅可能显示当前的技术。如果您想保持领先地位,那么在AI领域的Google布局和长期思考将更加重要,广泛。
撰写者:MOMO MO TIANTIAN
编辑:Jiangjiang Noodle Lineditor:Xuanxuan
图像,资源:
Bugu注意
前线记者xixi
评论的负面审查部门回到Sohu,以查看更多