谷歌深夜发布Gemini 2.5最强思考型AI测试大幅领先_AI热点日报

谷歌深夜发布Gemini 2.5最强思考型AI测试大幅领先

类型：热点整理2026-07-04

谷歌DeepMind这次放出的Gemini 2 5，可以说是在AI圈投下了一颗重磅冲击波——官方直接称之为“世界最强思考型AI”。目前推出的第一个版本是**Gemini 2 5 Pro实验版**，在推理和代码能力上表现确实有点炸裂，多个主流基准测试中都实现了大幅领先。 **先划几个重点** 谷歌一直

谷歌DeepMind这次放出的Gemini 2.5，可以说是在AI圈投下了一颗重磅冲击波——官方直接称之为“世界最强思考型AI”。目前推出的第一个版本是**Gemini 2.5 Pro实验版**，在推理和代码能力上表现确实有点炸裂，多个主流基准测试中都实现了大幅领先。

谷歌深夜炸场：Gemini 2.5 震撼发布！号称世界最强“思考型”AI，各种测试大幅领先

**先划几个重点** 谷歌一直在探索如何让AI的推理能力再上一个台阶，之前尝试过强化学习（RL）和思维链（Chain-of-Thought）提示，Gemini 2.0 Flash Thinking 算是一个小试牛刀。而到了2.5这个版本，通过显著增强的基础模型和改进的后训练技术，这种“思考”能力被直接内建到模型里，不能再只是通过提示词技巧来驱动了。这也意味着，未来的谷歌模型在处理复杂问题、构建具备上下文感知能力的AI智能体（Agents）时，能力会有一个质的飞跃。 **Gemini 2.5 Pro 实验版：性能到底有多强？直接看数据吧** 这次发布的2.5 Pro实验版，在衡量人类偏好的**LMArena排行榜上直接登顶**，而且优势相当明显。这不仅仅是实验室里的理论成绩，更说明它在实际生成时的输出风格和综合能力，得到了大量用户的认可。以下是它在多个关键基准测试中的单次尝试（pass@1）成绩，对比了包括OpenAI、Anthropic、Grok、DeepSeek等主流模型（数据来源为谷歌官方及第三方榜单）： **核心亮点解读：** * **超强推理**：在GPQA、AIME 2025等高难度推理基准上表现卓越。尤其是**Humanity's Last Exam**这个高难度的无工具测试中，直接拿到了**18.8%** 的成绩，这在同级别模型里相当亮眼。 * **高级编码**：相比Gemini 2.0，代码能力有了巨大飞跃。它不仅擅长创建视觉效果好的Web应用、代码智能体应用，还擅长代码转换和编辑。在行业标准的SWE-Bench Verified上，使用自定义智能体设置达到了**63.8%**。 * **继承并强化经典优势**： * **原生多模态**：依然能理解文本、音频、图像、视频甚至代码库，这一点一直是它的看家本领。 * **超长上下文窗口**：发布即支持**100万token**，性能优于前代，并且**即将支持200万token**。处理海量数据和分析复杂信息源的能力，得到了进一步强化。

实测前端代码能力：与DeepSeek v3最新版对比

用三个典型的前端开发任务，测试了一下Gemini 2.5 Pro在实际代码生成中的表现。总体感觉，仅就前端这个细分领域而言，Gemini 2.5 Pro在细节把控上，似乎没有DeepSeek v3最新版（0324版本）那么细腻。 **提示1：** 帮我制作一个赛博朋克贪吃蛇游戏，在单个HTML中运行 Gemini 2.5 实现效果作为对比，这是deepseek v3 0324 **提示2：** Create a single HTML file containing CSS and Ja vaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should ha ve a dark background. Provide all the HTML, CSS, and Ja vaScript code within this single file. The Ja vaScript should include a way to switch between the different weather conditions (e.g., a function or a set of buttons) to demonstrate the animations for each Gemini 2.5 实现效果： deepseek v3 0324 实现效果 **提示3：** 模拟一个太阳系行星运动，在单个HTML中运行 Gemini 2.5 实现效果 deepseek v3 0324 实现效果

如何体验

目前，Gemini 2.5 Pro实验版已经面向用户开放，可以通过以下方式直接使用：在**Google AI Studio**上，开发者可以开始试验；在**Gemini App（桌面和移动端）**，Gemini Advanced用户可以在模型下拉菜单中选择。未来几周内，这个模型还会登陆**Vertex AI**平台，届时官方会公布定价，并提供更高的速率限制，方便规模化生产使用。

来源：https://www.53ai.com/news/LargeLanguageModel/2025032624783.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。