游乐游手机版
首页/AI热点日报/热点详情

谷歌深夜发布Gemini 2.5最强思考型AI测试大幅领先

类型:热点整理2026-07-04
谷歌DeepMind这次放出的Gemini 2 5,可以说是在AI圈投下了一颗重磅冲击波——官方直接称之为“世界最强思考型AI”。目前推出的第一个版本是**Gemini 2 5 Pro实验版**,在推理和代码能力上表现确实有点炸裂,多个主流基准测试中都实现了大幅领先。 **先划几个重点** 谷歌一直
谷歌DeepMind这次放出的Gemini 2.5,可以说是在AI圈投下了一颗重磅冲击波——官方直接称之为“世界最强思考型AI”。目前推出的第一个版本是**Gemini 2.5 Pro实验版**,在推理和代码能力上表现确实有点炸裂,多个主流基准测试中都实现了大幅领先。

谷歌深夜炸场:Gemini 2.5 震撼发布!号称世界最强“思考型”AI,各种测试大幅领先

**先划几个重点** 谷歌一直在探索如何让AI的推理能力再上一个台阶,之前尝试过强化学习(RL)和思维链(Chain-of-Thought)提示,Gemini 2.0 Flash Thinking 算是一个小试牛刀。而到了2.5这个版本,通过显著增强的基础模型和改进的后训练技术,这种“思考”能力被直接内建到模型里,不能再只是通过提示词技巧来驱动了。这也意味着,未来的谷歌模型在处理复杂问题、构建具备上下文感知能力的AI智能体(Agents)时,能力会有一个质的飞跃。 **Gemini 2.5 Pro 实验版:性能到底有多强?直接看数据吧** 这次发布的2.5 Pro实验版,在衡量人类偏好的**LMArena排行榜上直接登顶**,而且优势相当明显。这不仅仅是实验室里的理论成绩,更说明它在实际生成时的输出风格和综合能力,得到了大量用户的认可。 以下是它在多个关键基准测试中的单次尝试(pass@1)成绩,对比了包括OpenAI、Anthropic、Grok、DeepSeek等主流模型(数据来源为谷歌官方及第三方榜单): **核心亮点解读:** * **超强推理**:在GPQA、AIME 2025等高难度推理基准上表现卓越。尤其是**Humanity's Last Exam**这个高难度的无工具测试中,直接拿到了**18.8%** 的成绩,这在同级别模型里相当亮眼。 * **高级编码**:相比Gemini 2.0,代码能力有了巨大飞跃。它不仅擅长创建视觉效果好的Web应用、代码智能体应用,还擅长代码转换和编辑。在行业标准的SWE-Bench Verified上,使用自定义智能体设置达到了**63.8%**。 * **继承并强化经典优势**: * **原生多模态**:依然能理解文本、音频、图像、视频甚至代码库,这一点一直是它的看家本领。 * **超长上下文窗口**:发布即支持**100万token**,性能优于前代,并且**即将支持200万token**。处理海量数据和分析复杂信息源的能力,得到了进一步强化。

实测前端代码能力:与DeepSeek v3最新版对比

用三个典型的前端开发任务,测试了一下Gemini 2.5 Pro在实际代码生成中的表现。总体感觉,仅就前端这个细分领域而言,Gemini 2.5 Pro在细节把控上,似乎没有DeepSeek v3最新版(0324版本)那么细腻。 **提示1:** 帮我制作一个赛博朋克贪吃蛇游戏,在单个HTML中运行 Gemini 2.5 实现效果 作为对比,这是deepseek v3 0324 **提示2:** Create a single HTML file containing CSS and Ja vaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should ha ve a dark background. Provide all the HTML, CSS, and Ja vaScript code within this single file. The Ja vaScript should include a way to switch between the different weather conditions (e.g., a function or a set of buttons) to demonstrate the animations for each Gemini 2.5 实现效果: deepseek v3 0324 实现效果 **提示3:** 模拟一个太阳系行星运动,在单个HTML中运行 Gemini 2.5 实现效果 deepseek v3 0324 实现效果

如何体验

目前,Gemini 2.5 Pro实验版已经面向用户开放,可以通过以下方式直接使用:在**Google AI Studio**上,开发者可以开始试验;在**Gemini App(桌面和移动端)**,Gemini Advanced用户可以在模型下拉菜单中选择。未来几周内,这个模型还会登陆**Vertex AI**平台,届时官方会公布定价,并提供更高的速率限制,方便规模化生产使用。
来源:https://www.53ai.com/news/LargeLanguageModel/2025032624783.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。