2025年7月AI领域十大趋势与关键资讯前瞻

时间：2026-05-25 11:18

上个月，AI领域的动态可谓精彩纷呈，从巨头发布的重磅模型，到悄然改变行业规则的技术标准更新，再到那些正试图融入我们日常生活的应用尝试。如果你还没来得及一一细看，不妨跟着这份梳理，快速把握其中的关键脉络。一、Perplexity 推出 AI 驱动浏览器 Comet 搜索领域的格局，似乎又有了新的挑战

上个月，AI领域的动态可谓精彩纷呈，从巨头发布的重磅模型，到悄然改变行业规则的技术标准更新，再到那些正试图融入我们日常生活的应用尝试。如果你还没来得及一一细看，不妨跟着这份梳理，快速把握其中的关键脉络。

一、Perplexity 推出 AI 驱动浏览器 Comet

搜索领域的格局，似乎又有了新的挑战者。Perplexity这次不再满足于做一个搜索引擎，而是直接推出了名为Comet的AI驱动浏览器。其目标很明确：挑战谷歌搜索作为用户获取信息主要入口的地位。目前，这款浏览器优先面向每月200美元的Max计划订阅者以及少量受邀用户开放。

它的核心思路是什么？简单说，就是把自家的AI搜索能力深度整合到浏览体验中。浏览器不仅预装并默认启用Perplexity的AI搜索引擎，突出展示其核心的AI生成摘要功能，还内置了一个全新的AI助手——Comet Assistant。这个助手能干不少“杂活”，比如自动总结邮件和日历事件、管理标签页，甚至能代用户浏览网页并回答问题。用户通过侧边栏就能随时调用它，让信息处理变得更高效。

二、谷歌发布 32 个 T5Gemma 模型

另一边，谷歌在模型架构上玩出了新花样。他们发布了基于编码器-解码器架构的T5Gemma系列模型，一口气推出了32个不同配置。同时亮相的，还有面向医疗健康领域的多模态模型MedGemma。

T5Gemma系列的技术亮点在于“适应”技术，它能将预训练好的仅解码器模型，灵活转换为编码器-解码器架构。这种设计允许开发者像搭积木一样，组合不同大小的模型，从而在任务质量和推理效率之间找到最佳平衡点。实验数据显示，在多个基准测试，尤其是那些需要复杂推理的任务上，T5Gemma的表现超越了仅解码器架构的Gemma 2。这不禁让人猜想，编码器-解码器架构是否会借此机会迎来复兴。

至于MedGemma，则提供了4B和27B两种规格，旨在辅助医疗诊断，初步表现值得关注。

三、马斯克 xAI 发布 Grok4

马斯克的xAI公司也带来了新旗舰——Grok 4，以及性能更强的多智能体版本Grok 4 Hea vy。伴随模型发布的，还有一个每月高达300美元的“Super Grok Hea vy”订阅计划，定位相当高端。

性能方面，Grok 4在被称为“人类最后考试”的基准测试中，无工具辅助的准确率达到25.4%，超过了谷歌的Gemma 2.5 Pro和OpenAI的o3模型。而配备工具的Grok 4 Hea vy更是拿到了44.4%的高分。在多学科测评中，其表现同样优异，马斯克甚至宣称其科研能力已超越人类博士水平，并且能直接处理源代码文件。

目前，Grok 4已在库存管理、游戏创作等场景落地。未来，xAI还计划推出编码、多模态及视频生成模型，与OpenAI即将到来的GPT-5正面竞争。

四、新版 PNG 格式发布

一个沉寂了二十多年的图像格式——PNG，突然迎来了重磅更新。这次更新由Adobe、苹果、谷歌等多家巨头共同推动，连美国国会图书馆也推荐使用新规范。

新版PNG主要带来了三大改进：首先是完善了对HDR（高动态范围）的支持，仅用4字节就能实现，设计颇具前瞻性；其次是正式将APNG动画格式纳入官方标准，事实上，APNG早已被广泛支持；最后是官方正式支持Exif数据，这意味着照片的版权信息、GPS位置等元数据可以安全地嵌入PNG文件了。此外，规范还进行了一系列错误修正和说明澄清。

目前，Chrome、Safari、Photoshop等主流软件已开始支持新版PNG，广播领域的硬件工具也在跟进适配。后续，工作组还计划推出第四版以优化HDR与SDR的兼容性，并研究在第五版中提升压缩效率和并行编解码能力。

五、B 站推“代号 H”AI 创作工具

B站开始在其擅长的视频内容领域探索AI赋能。他们推出的“代号H”AI创作工具，瞄准的是视频播客这个细分场景。这款工具的核心功能，是将音频内容自动视频化。

用户只需输入文案或音频，工具就能适配播客、泛知识杂谈等多种图文模板，快速生成对应的视频内容。据称，生成一段千字内容的视频目前仅需6分钟，未来甚至有望缩短至3分钟。目前该工具处于定向邀请体验阶段，用户反馈据说超出了预期。

六、京东推出两款 AI 社交产品

电商平台京东则在探索AI的情感价值与消费场景的结合。他们在App内上线了两款AI社交产品：“宠TA”和“聊愈小宇宙”。

“宠TA”是一个以宠物为中心的AI社区。用户不仅可以与扮演宠物或宠物数字人的AI智能体聊天互动，还能体验换装、创建宠物数字人等趣味功能。产品还整合了宠物医生在线咨询和食品购买专区，试图打造一个“边玩边买”的情感消费闭环。

“聊愈小宇宙”则更侧重于情绪关怀。这款AI对话产品能够识别用户情绪，提供情绪记录、解压小游戏等服务。用户可以与AI心理咨询师聊天，也可以在“微光社区”中与其他用户交流。同时，平台也提供了连接专业心理咨询师的付费服务入口，兼顾了社区认同与专业支持。

七、字节上线“小荷 AI 医生”

字节跳动在AI医疗健康领域迈出了独立的一步，推出了首款AI医疗助手独立App“小荷AI医生”，定位是个人健康管家。

用户登录后，可以通过对话界面咨询疾病自查、用药参考等健康问题。AI助手会主动询问关键信息（如症状持续时间），并引导用户上传诊断报告或拍摄病灶图片，综合给出建议。它还能解读血常规等检验报告，快速分析指标异常，评估健康状况并提供行动建议。甚至支持拍摄药盒来查询药品说明书。

这个动作的背景是持续增长的市场：2024年中国AI医疗器械市场规模已达96.41亿元，预计2025年将攀升至242.3亿元。大厂竞相入场，或许正在重新定义AI在健康领域的服务边界。

八、vivo 发布端侧多模态模型

在端侧AI的赛道上，vivo AI Lab发布了专为移动设备设计的端侧多模态模型BlueLM-2.5-3B。其参数量控制在紧凑的2.9B，旨在保证高效运行。

这个模型融合了文本与图文的理解推理能力，支持在“快速响应”和“深度思考”两种模式间切换，并能控制“思考预算”。一个实用的特性是，它能直接理解手机的图形用户界面（GUI）。

在超过20项的评测中，其表现可圈可点：在文本任务上，它有效缓解了多模态模型常有的“文本能力遗忘”问题，效果与同规模纯文本模型接近，优于其他同规模甚至更大规模的多模态模型；在多模态任务和GUI理解任务上，也在同规模模型中处于领先地位，尤其在中文场景下表现突出。

九、腾讯元器接入微信支付 MCP

腾讯在AI智能体的商业化闭环上，打通了关键一环。其智能体开发平台“元器”宣布正式接入微信支付MCP（商户通用产品），成为首个接入该支付解决方案的智能体平台。

这意味着什么？对于开发者而言，现在可以轻松地为自己的AI智能体添加下单、赞赏、查询订单等支付功能。以往困扰智能体商业化的“最后一公里”支付问题，得到了解决。开发者只需通过简单的提示词调用或工作流编排，就能快速集成微信支付能力。

目前，元器平台已向开发者开放了微信支付MCP的体验版本，正式版本将在完成相关资质审核后全面开放。

十、字节发布 Xverse 图像生成模型

最后，在图像生成这个竞争白热化的领域，字节跳动带来了一个专注于“精确控制”的模型——Xverse。它的核心能力，在于能对图像中设定的每一个主体进行独立且精确的控制，同时不破坏整体的生成质量，可以应对多主体、复杂光源、多样风格等挑战性场景。

技术层面，Xverse通过学习扩散模型中文本流调制机制的偏移量，来实现对多个主体身份和语义属性的一致性控制。其关键组成部分包括T-Mod适配器、文本流调制机制、VAE编码图像特征模块以及两种正则化技术。

在对比测试中，Xverse无论是在单主体控制、多主体控制任务上，还是在整体图像质量上，表现都优于MS-Diffusion、OmniGen等当前领先的技术方案。

来源：https://www.uisdc.com/ai-news-9

上一篇大厂AI实战教程真人3D场景高效制作全流程 下一篇Coze平台教程：一键创建媲美Lovart的AI绘画智能体

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。