来源:爱范儿
就在昨晚,Gemini 2.0 新模型用一记重拳暴击 OpenAI。
先说结论, Gemini 2.0 Flash 性能较上代有所长进,硬刚 Claude 3.5 Sonnet,但今天更重要的亮点或许是基于它打造的 AI Agents(智能体)。
这也得到了 Deepmind CEO Demis Hassabis 的强力背书:「2025 年将是 AI 智能体的时代,Gemini 2.0 将是支撑我们基于智能体工作的最新一代模型。」
纵观今天发布的智能体项目,Google 的野心昭然若揭。
以最接地气的方式渗透用户日常生活的每个场景,而当每个入口都成为可能,真正的通用型 AI 助手或许才刚刚开始。
Google 年底最强 AI 王炸来了,但还藏了一手?
不是 Pro,却胜似 Pro,是对 Gemini 2.0 Flash 的最好评价。
据官方介绍,原本主打效率和速度的 Flash 型号性能有所增强,不仅在多项基准测试功能超越了 Gemini 1.5 Pro,而且响应速度也提升了 2 倍。
不过仔细看看具体的基准测试数据,倒也不用太过兴奋。Gemini 2.0 Flash 在 MMLU-Pro、MATH、GPQA 等各方面基准测试成绩都有所提升,但得分和 Claude 3.5 Sonnet 差不多。
当然,今天亮相的只是 Flash 型号,估计 Google 手里的 2.0 Pro 才是真正的杀手锏。
与此同时,2.0 Flash 还新增了许多值得关注的新功能。
除了支持图像、视频和音频等多模态输入,2.0 Flash 现在还支持多模态输出,比如原生生成的图像与文本结合,以及可操控的多语言文本转语音(TTS)音频。亦或者,它还可以原生调用工具,如 Google 搜索等。
现在,Gemini 2.0 Flash 现已在 Gemini API 在 Google AI Studio 和 Vertex AI 提供给开发者。而 Gemini 用户可以通过 PC 端访问 Gemini 2.0 Flash。
明年初,Gemini 2.0 预计将推送给更多 Google 产品。
博主 @legit_rumors 在体验 Gemini 2.0 Flash 过后,认为其得到的结果和 Gemini-Exp-1206 很相似,但要比后者要更快更强,在编程和逻辑推理能力上也大幅取胜。
网友 @slow_developer 让 gemini-2.0-flash-exp 写两段关于草莓「Strawberry」的诗歌,要求段落中却不能出现「e」,新模型的表现堪称满分。
值得一提的是,Google 2.0 正是采用了 Google 六代 TPU——Trillium 训练而成,以下是 Trillium 与前代产品的关键改进:
训练性能提高超过 4 倍
推理吞吐量提高最多 3 倍
能源效率提升 67%
每个芯片的峰值计算性能提高了 4.7 倍
高带宽内存(HBM)容量翻倍
芯片间互连(ICI)带宽翻倍
单个 Jupiter 网络结构中集成了 10 万个 Trillium 芯片
每美元的训练性能提高了 2.5 倍,每美元的推理性能提高了 1.4 倍
作为全球搜索引擎霸主,Google 也发布了基于 Gemini 1.5 Pro 的新功能 Deep Research。
类似于当下大火的深度 AI 搜索功能,它结合了 Google 的搜索专长和 Gemini 的高级推理能力,能够自动完成复杂的研究任务。
想象一下,假如你是一名研究生,需要准备机器人技术报告,关注自动驾驶车辆传感器趋势,需研究技术优缺点及未来发展,这通常耗时良久且需要在多个网页间交叉参考,寻找资料链接。
但现在你只需输入研究问题,Deep Research 就会制定研究计划并进行多轮网络搜索,最终生成一份包含关键发现的综合报告。这份报告不仅条理清晰,还包含原始来源链接,方便用户进一步探索。
该工具目前已在 Gemini Advanced 平台上线,仅支持英文版本,适用于 PC 端,预计将在 2025 年初推出移动应用。
据 Google AI Studio 的高级产品经理Logan Kilpatrick的体验反馈, Deep Research 在单次查询中就浏览分析了多达 145 个不同网站。
Google CEO Sundar Pichai 还在公开信中写道,此前推出的 AI Overviews 将集成 Gemini 2.0,从而提升复杂问题处理能力,本周已经进行有限测试,预计明年推广,并扩展至更多国家和语言。
会写代码、能打游戏、懂浏览器,Google 新 AI 智能体到底强在哪?
赶在 2024 年的尾声,Google 终于端出了 AI 智能体大招。
毕竟,Gemini 2.0 Flash 的原生用户界面操作功能,以及其他改进,如多模态推理、长上下文理解、复杂指令的跟踪与规划、组合函数调用、原生工具使用和延迟性能的优化,所有这些功能协同工作,天然就适合 AI 智能体的发挥。
今天,Google 发布了多款 AI 智能体,有早已在 I/O 大会上亮相的 Project Astra,也有适用于浏览器的 Project Mariner,还有专为开发者打造的 AI 编程智能体 Jules。
基于 Gemini 2.0 构建的 Project Astra 具备多语言对话能力,能够更好地理解不同口音和不常见的词汇。
此外,Project Astra 的记忆能力也有所改进,现在具备最多 10 分钟的会话内记忆,能够记住更多用户与其过去的对话,从而能够提供更加个性化的服务。
并且,通过新的流媒体功能和原生音频理解,该 Project Astra 还可以以接近人类对话的延迟进行语言理解。基于此,我们不妨期待一下,Project Astra 能早日融入到 AI 智能眼镜等设备上。
第二个则是事先张扬的浏览器智能体 Project Mariner。
具体来说,它能够理解并推理浏览器屏幕上的信息,包括像素和网页元素(如文本、代码和图片),然后通过 Chrome 扩展程序来利用这些信息帮你完成任务。
WebVoyager 基准测试是一个用于评估多模态网络智能体性能的测试,主要是通过一系列复杂的基于视觉的任务,测试智能体处理图文输入、理解自然语言指令和在网站上执行动作的能力。
而 Project Mariner 在前者的测试中达到了 83.5% 的高分成绩,但在完成任务时的准确度和速度仍有待提高。
别问现在效果怎么样,问就是主打一个未来可期。
考虑到隐私风险问题,Project Mariner 也没含糊,在执行某些敏感操作(如购买物品)之前,它会向用户请求最终确认。
第三个则是专为开发人员打造的 AI 编程智能体 Jules。
Jules 支持直接集成到 GitHub工作流中,专治各种 Bug,与其盯着满屏的 Bug发愁,不如直接把问题甩给 Jules。
还记得 Deepmind 前不久发布的基础世界模型 Genie 2 吗?
开局一张图,它就能生成一个3D 视频游戏场景。Google 也使用 Gemini 2.0 构建了智能体,帮助用户在视频游戏的虚拟世界中进行导航。
类似于今年爆火的 AI 游戏搭子,它能够通过用户游戏屏幕上的动作来给出下一步操作建议,这对于模拟经营类游戏来说,堪称刚需。
除了探索虚拟世界中的整体能力,Google 还想将 Gemini 2.0 的空间推理能力应用于机器人身上,开发能在现实世界帮忙的智能体。
至于老生常谈的安全问题,Google 这次也算是做足了功课。Gemini 2.0 Flash 和一系列智能体产品,将与测试人员、外部专家以及内部的责任与安全委员会(RSC)合作,进行广泛的评估。
附上公开信全文
来自 Google 和Alphabet首席执行官 Sundar Pichai 的致辞:
信息是人类进步的核心。这是我们过去 26 年致力于使命的原因——组织全球信息,并使其变得可访问和有用。我们也因此不断推动人工智能的前沿,以便跨所有输入方式组织信息,并通过任何输出方式让信息真正为你所用。
去年 12 月,当我们推出 Gemini 1.0 时,这正是我们的愿景。Gemini 1.0 和 1.5 作为首个原生多模态的模型,在多模态和长上下文的应用上取得了显著进展,能够理解文本、视频、图像、音频和代码等多种信息,并处理更多信息。
现在,成千上万的开发者正在使用 Gemini 进行开发。这不仅帮助我们重新构想了所有产品——包括 7 款拥有 20 亿用户的产品——并创造了新的产品。NotebookLM便是多模态和长上下文能力为用户带来便捷的一个很好的例子,也正因如此,许多人喜爱它。
在过去一年中,我们一直在投资开发更具「代理性」的模型,即这些模型能更深入地理解你周围的世界,提前多步思考,并在你的监督下为你执行任务。
今天,我们很高兴迎来新一代的模型——Gemini 2.0,它是我们迄今为止最强大的模型。通过多模态的新进展——如原生图像和音频输出——以及原生工具使用,我们能够构建新的 AI 智能体,使我们更接近普遍助手的愿景。
今天,我们将 Gemini 2.0 交到开发者和信任的测试人员手中,并加速将其应用于我们的产品,首推 Gemini 和搜索引擎。今天起,所有 Gemini 用户都可以体验 Gemini 2.0 Flash 实验模型。同时,我们还推出了名为「深度研究」的新功能,利用高级推理和长上下文能力,作为研究助手,探索复杂话题并为你撰写报告。目前,Gemini Advanced 中已上线这一功能。
没有任何产品像搜索引擎一样被 AI 技术深刻改变。我们的 AI Overviews 已服务超过 10 亿用户,帮助他们提问全新的问题类型,迅速成为我们搜索引擎最受欢迎的功能之一。
接下来,我们将把 Gemini 2.0 的先进推理能力引入 AI Overviews,处理更复杂的主题和多步骤问题,包括高级数学公式、多模态查询和编程。我们本周已开始进行有限测试,计划明年初全面推广。同时,我们将继续把 AI Overviews 带到更多国家和语言地区。
Gemini 2.0 的进展,得益于我们十年来在 AI 创新领域的全栈投资。
它依托像 Trillium 这样的定制硬件,Trillium 是我们的第六代 TPU。TPU 为 Gemini 2.0 的训练和推理提供了 100% 的支持,而 Trillium 现在已开放给客户,让他们也能基于这一硬件进行开发。
如果 Gemini 1.0 是为了组织和理解信息,那么 Gemini 2.0 则是让信息更加有用。我迫不及待地想看看这个新时代带来什么。
Sundar