游乐游手机版
首页/AI热点日报/热点详情

三菱电机场景感知技术首度结合AI实现人类直观交互

类型:热点整理2026-06-30
三菱电机近日发布了一项重磅突破——成功研发出据称是全球首项能够让机器与人类实现高度自然、直观交互的技术。其核心思路在于将多模态传感信息转化为自然语言,使机器真正“看懂”场景、听懂人话。 这项名为“场景感知互动”的技术,核心融合了三菱电机自主研发的Maisart紧凑型AI技术。它通过生成自然语言来分析

三菱电机近日发布了一项重磅突破——成功研发出据称是全球首项能够让机器与人类实现高度自然、直观交互的技术。其核心思路在于将多模态传感信息转化为自然语言,使机器真正“看懂”场景、听懂人话。

三菱电机开发场景感知技术,紧贴AI技术首次实现人类直观交互

这项名为“场景感知互动”的技术,核心融合了三菱电机自主研发的Maisart紧凑型AI技术。它通过生成自然语言来分析多模态感知信息,从而让机器与人之间实现真正顺畅、直白的交流。简而言之,机器不再仅仅处理图像和声音,而是能将各类信息综合起来,用“人类语言”表达出自己所理解的内容。

作为该技术的典型应用案例,三菱电机已搭建了一套车载路径向导系统——人和车辆可以通过自然语言对话来沟通行驶路线,而非机械生硬的指令。

图源:三菱电机

这里的关键突破在于全球首创的端到端深度学习方案。与传统方法不同,该系统只需输入和输出样本即可自主学习,无需手动编写规则。它融合了摄像头拍摄的图像、麦克风采集的声音、雷达或骑手获取的位置信息——所有这些多模态传感数据,机器都能综合判断周围正在发生什么。

更精妙的是,系统会自动对多模态信息中的重要内容进行加权,并采用一种名为“多模态保持法”的技术,将机器理解到的场景用自然语言详细描述出来。整个学习模型正是基于这一逻辑构建的。

当设备理解场景后,它还会结合人类的对话历史来生成自然的语言表达。如此一来,人与设备之间的沟通变得极为顺畅。根据测试,与传统的仅依赖视觉信息的方法相比,该技术将CIDEr评价指标提升了29%——这是一个常用于衡量生成描述质量的行业标准。

场景感知的汽车导航交互,是该技术最直观的应用场景。它不再像传统导航那样生硬提示“50米内右转”,而是提供带有场景感的指引,例如“在邮箱前右转”或“跟着那辆灰色汽车向右转”。更强大的功能在于,当系统预测到附近的物体可能与车辆行驶路线相交时,它会主动发出语音警告,比如“行人正在过马路”。为了实现这一能力,系统会分析场景,识别出可分辨的地标和动态元素(如邮箱、灰色汽车、行人),然后利用这些识别出的对象和事件生成直观的指引语句。

图源:三菱电机

总而言之,该技术充分整合了深度学习在物体识别、视频描述、自然语言生成和口语对话等领域的最新进展。机器不再是冰冷的数据处理器,而是能真正理解周围环境,并以更自然、更直观的方式与人类互动。场景感知交互技术的应用前景十分广阔:车载信息娱乐系统的人机接口、建筑工地和工厂的机器人交互、监控人员健康与福祉的系统、帮助解释复杂场景并鼓励社交距离的监控系统,以及公共场所设备的非接触式操作——凡是需要机器“看懂”环境并与人类顺畅沟通的领域,都将从中受益。

来源:https://m.elecfans.com/article/1259548.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。