游乐游手机版
首页/科技数码/文章详情

百度开源3B多模态大模型:图文视频处理实战解析

时间:2025-11-12 11:17
百度今日宣布,正式开源其新一代多模态思考模型ERNIE-4 5-VL-28B-A3B-Thinking。这款轻量级模型仅激活3B参数,却在视觉语言理解、跨模态推理及工具调用等关键领域实现突破性进展,

百度于今日正式宣布,将新一代多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking全面开源。这款轻量化模型仅激活3B参数,却在视觉语言理解、跨模态推理及工具调用等核心领域取得突破性进展,多项基准测试成绩接近当前行业顶尖水准。

该模型基于ERNIE-4.5-VL-28B-A3B架构进行深度优化,通过引入海量高质量视觉语言数据进行训练,显著提升了文本与视觉模态间的语义对齐能力。研发团队创新性地采用GSPO与IcePop策略,稳定混合专家结构(MoE),结合动态难度采样机制,使模型在保持轻量化的同时具备高效学习能力。大规模多模态强化学习技术的运用,进一步优化了任务执行的效果。

核心创新之一是引入了“图像思考”交互机制。用户可在图像上自由缩放焦点区域,配合图像搜索等功能快速获取关联信息。这项能力特别适用于处理长尾视觉知识、细节识别等复杂场景。例如在公共交通图表解析场景中,模型能够准确识别不同时间段的客流高峰,并推导出最优出行预案。

模型的空间定位能力获得显著增强。通过优化指令遵循机制与定位触发逻辑,用户可以更精细地控制视觉定位功能,实现从语义描述到图像坐标的直接转换。在STEM学科解题场景中,模型可识别上传的电路图结构,精确计算等效电阻数值。

工具调用系统实现智能化升级。模型可根据图像环境动态决策是否调用外部工具,形成高效的信息获取链条。在视觉定位任务中,模型能识别并标注穿西装戴礼帽的人物位置,通过边界框可视化输出定位结果。配合“图像思考”能力,模型还可聚焦图像细节区域,识别隐藏的IP角色特征后自动调用搜索工具补充信息。

在视频理解领域同样展现突破性进展。模型具备分析广告视频内容变化的能力,可精确定位不同时间段的内容切换点,辅助关键片段提取与结构化分析。这些能力组合使模型能够完成从简单图像解析到复杂视频分析的全链条任务。

测试数据显示,该模型在图表解析、学科解题、人物定位、视频分析等场景中均保持高完成度。其轻量化设计(仅3B激活参数)与多场景适应性,为开发者构建具备感知与执行能力的多模态智能体提供了全新选择。随着工具链的持续完善,此类模型有望在真实环境中承担更多感知判断与交互任务。

来源:https://www.itbear.com.cn/html/2025-11/1016754.html
上一篇华为手机选购指南:Mate 70 Pro、nova 14与畅享70X全面解析 下一篇深蓝L06昆明预售启动:5大硬核实力点亮年轻出行新体验
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
最新消息称国行苹果iPhone 18 Pro Max电池容量达到了5391mAh增幅11.78%
科技数码 · 2026-07-05

最新消息称国行苹果iPhone 18 Pro Max电池容量达到了5391mAh增幅11.78%

国行iPhone18ProMax电池容量达5391mAh,较前代增幅11 78%,增量近568mAh;Pro机型仅小幅提升68mAh。爆料称最终数据待验证,若属实则续航将显著增强。

HMD发布四款诺基亚功能手机 配备AI按键与可拆卸电池
科技数码 · 2026-07-05

HMD发布四款诺基亚功能手机 配备AI按键与可拆卸电池

HMDGlobal推出4款诺基亚功能手机,均配1450mAh可拆卸电池及独立AI按键,支持语音控制,免费180天后付费。部分机型带摄像头,支持microSD卡扩展至32GB,具双SIM卡、3 5mm接口及蓝牙5 0。

云南以旧换新补贴扩围 新增智能影音与无人机
科技数码 · 2026-07-05

云南以旧换新补贴扩围 新增智能影音与无人机

云南省自2026年7月起扩大消费品以旧换新补贴范围,新增智能门锁、智能影音、无人机、数码相机等数码智能产品及吸油烟机、燃气灶、洗碗机、净水器等家电。按最终售价15%补贴,每类每件最高1500元,商户报名无限制。

小米Redmi 7英寸高性能手机传闻即将发布
科技数码 · 2026-07-05

小米Redmi 7英寸高性能手机传闻即将发布

最近圈内又有新动静了。据博主 @数码闲聊站 今天爆料,某家厂商的子系列下一代打算推出两款屏幕尺寸差异明显的机型:一块是 6 59 英寸的中屏 Pro,另一块则是 7 英寸的巨屏性能机。从该博主以往的爆料习惯来看,基本可以锁定是小米 REDMI 品牌的产品线布局。 有意思的是,早在今年 2 月,这位博

深光影像AF35mmF2.2CE全画幅镜头E/L卡口739元起售
科技数码 · 2026-07-05

深光影像AF35mmF2.2CE全画幅镜头E/L卡口739元起售

深光影像AF35mmF2 2CE全画幅镜头开售,提供E卡口和L卡口,标准版七百三十九元,套装版七百八十九元。全金属机身,重约一百七十五克,高三十六毫米,滤镜口径五十二毫米,光学结构五组七片,九片光圈叶片,最近对焦零点三五米,支持自动对焦。