上个月,AI领域的动态可谓精彩纷呈,从巨头发布的重磅模型,到悄然改变行业规则的技术标准更新,再到那些正试图融入我们日常生活的应用尝试。如果你还没来得及一一细看,不妨跟着这份梳理,快速把握其中的关键脉络。

一、Perplexity 推出 AI 驱动浏览器 Comet
搜索领域的格局,似乎又有了新的挑战者。Perplexity这次不再满足于做一个搜索引擎,而是直接推出了名为Comet的AI驱动浏览器。其目标很明确:挑战谷歌搜索作为用户获取信息主要入口的地位。目前,这款浏览器优先面向每月200美元的Max计划订阅者以及少量受邀用户开放。
它的核心思路是什么?简单说,就是把自家的AI搜索能力深度整合到浏览体验中。浏览器不仅预装并默认启用Perplexity的AI搜索引擎,突出展示其核心的AI生成摘要功能,还内置了一个全新的AI助手——Comet Assistant。这个助手能干不少“杂活”,比如自动总结邮件和日历事件、管理标签页,甚至能代用户浏览网页并回答问题。用户通过侧边栏就能随时调用它,让信息处理变得更高效。

二、谷歌发布 32 个 T5Gemma 模型
另一边,谷歌在模型架构上玩出了新花样。他们发布了基于编码器-解码器架构的T5Gemma系列模型,一口气推出了32个不同配置。同时亮相的,还有面向医疗健康领域的多模态模型MedGemma。
T5Gemma系列的技术亮点在于“适应”技术,它能将预训练好的仅解码器模型,灵活转换为编码器-解码器架构。这种设计允许开发者像搭积木一样,组合不同大小的模型,从而在任务质量和推理效率之间找到最佳平衡点。实验数据显示,在多个基准测试,尤其是那些需要复杂推理的任务上,T5Gemma的表现超越了仅解码器架构的Gemma 2。这不禁让人猜想,编码器-解码器架构是否会借此机会迎来复兴。
至于MedGemma,则提供了4B和27B两种规格,旨在辅助医疗诊断,初步表现值得关注。

三、马斯克 xAI 发布 Grok4
马斯克的xAI公司也带来了新旗舰——Grok 4,以及性能更强的多智能体版本Grok 4 Hea vy。伴随模型发布的,还有一个每月高达300美元的“Super Grok Hea vy”订阅计划,定位相当高端。
性能方面,Grok 4在被称为“人类最后考试”的基准测试中,无工具辅助的准确率达到25.4%,超过了谷歌的Gemma 2.5 Pro和OpenAI的o3模型。而配备工具的Grok 4 Hea vy更是拿到了44.4%的高分。在多学科测评中,其表现同样优异,马斯克甚至宣称其科研能力已超越人类博士水平,并且能直接处理源代码文件。
目前,Grok 4已在库存管理、游戏创作等场景落地。未来,xAI还计划推出编码、多模态及视频生成模型,与OpenAI即将到来的GPT-5正面竞争。

四、新版 PNG 格式发布
一个沉寂了二十多年的图像格式——PNG,突然迎来了重磅更新。这次更新由Adobe、苹果、谷歌等多家巨头共同推动,连美国国会图书馆也推荐使用新规范。
新版PNG主要带来了三大改进:首先是完善了对HDR(高动态范围)的支持,仅用4字节就能实现,设计颇具前瞻性;其次是正式将APNG动画格式纳入官方标准,事实上,APNG早已被广泛支持;最后是官方正式支持Exif数据,这意味着照片的版权信息、GPS位置等元数据可以安全地嵌入PNG文件了。此外,规范还进行了一系列错误修正和说明澄清。
目前,Chrome、Safari、Photoshop等主流软件已开始支持新版PNG,广播领域的硬件工具也在跟进适配。后续,工作组还计划推出第四版以优化HDR与SDR的兼容性,并研究在第五版中提升压缩效率和并行编解码能力。

五、B 站推“代号 H”AI 创作工具
B站开始在其擅长的视频内容领域探索AI赋能。他们推出的“代号H”AI创作工具,瞄准的是视频播客这个细分场景。这款工具的核心功能,是将音频内容自动视频化。
用户只需输入文案或音频,工具就能适配播客、泛知识杂谈等多种图文模板,快速生成对应的视频内容。据称,生成一段千字内容的视频目前仅需6分钟,未来甚至有望缩短至3分钟。目前该工具处于定向邀请体验阶段,用户反馈据说超出了预期。

六、京东推出两款 AI 社交产品
电商平台京东则在探索AI的情感价值与消费场景的结合。他们在App内上线了两款AI社交产品:“宠TA”和“聊愈小宇宙”。
“宠TA”是一个以宠物为中心的AI社区。用户不仅可以与扮演宠物或宠物数字人的AI智能体聊天互动,还能体验换装、创建宠物数字人等趣味功能。产品还整合了宠物医生在线咨询和食品购买专区,试图打造一个“边玩边买”的情感消费闭环。
“聊愈小宇宙”则更侧重于情绪关怀。这款AI对话产品能够识别用户情绪,提供情绪记录、解压小游戏等服务。用户可以与AI心理咨询师聊天,也可以在“微光社区”中与其他用户交流。同时,平台也提供了连接专业心理咨询师的付费服务入口,兼顾了社区认同与专业支持。

七、字节上线“小荷 AI 医生”
字节跳动在AI医疗健康领域迈出了独立的一步,推出了首款AI医疗助手独立App“小荷AI医生”,定位是个人健康管家。
用户登录后,可以通过对话界面咨询疾病自查、用药参考等健康问题。AI助手会主动询问关键信息(如症状持续时间),并引导用户上传诊断报告或拍摄病灶图片,综合给出建议。它还能解读血常规等检验报告,快速分析指标异常,评估健康状况并提供行动建议。甚至支持拍摄药盒来查询药品说明书。
这个动作的背景是持续增长的市场:2024年中国AI医疗器械市场规模已达96.41亿元,预计2025年将攀升至242.3亿元。大厂竞相入场,或许正在重新定义AI在健康领域的服务边界。

八、vivo 发布端侧多模态模型
在端侧AI的赛道上,vivo AI Lab发布了专为移动设备设计的端侧多模态模型BlueLM-2.5-3B。其参数量控制在紧凑的2.9B,旨在保证高效运行。
这个模型融合了文本与图文的理解推理能力,支持在“快速响应”和“深度思考”两种模式间切换,并能控制“思考预算”。一个实用的特性是,它能直接理解手机的图形用户界面(GUI)。
在超过20项的评测中,其表现可圈可点:在文本任务上,它有效缓解了多模态模型常有的“文本能力遗忘”问题,效果与同规模纯文本模型接近,优于其他同规模甚至更大规模的多模态模型;在多模态任务和GUI理解任务上,也在同规模模型中处于领先地位,尤其在中文场景下表现突出。

九、腾讯元器接入微信支付 MCP
腾讯在AI智能体的商业化闭环上,打通了关键一环。其智能体开发平台“元器”宣布正式接入微信支付MCP(商户通用产品),成为首个接入该支付解决方案的智能体平台。
这意味着什么?对于开发者而言,现在可以轻松地为自己的AI智能体添加下单、赞赏、查询订单等支付功能。以往困扰智能体商业化的“最后一公里”支付问题,得到了解决。开发者只需通过简单的提示词调用或工作流编排,就能快速集成微信支付能力。
目前,元器平台已向开发者开放了微信支付MCP的体验版本,正式版本将在完成相关资质审核后全面开放。

十、字节发布 Xverse 图像生成模型
最后,在图像生成这个竞争白热化的领域,字节跳动带来了一个专注于“精确控制”的模型——Xverse。它的核心能力,在于能对图像中设定的每一个主体进行独立且精确的控制,同时不破坏整体的生成质量,可以应对多主体、复杂光源、多样风格等挑战性场景。
技术层面,Xverse通过学习扩散模型中文本流调制机制的偏移量,来实现对多个主体身份和语义属性的一致性控制。其关键组成部分包括T-Mod适配器、文本流调制机制、VAE编码图像特征模块以及两种正则化技术。
在对比测试中,Xverse无论是在单主体控制、多主体控制任务上,还是在整体图像质量上,表现都优于MS-Diffusion、OmniGen等当前领先的技术方案。

