
1月8日,阿里云在通义智能硬件展上推出全新的多模态交互开发套件。该套件整合了千问、万相、百聆三款通义系列大模型,内置十余种面向生活休闲与工作效率等场景的Agent及MCP工具,具备听觉识别、视觉感知、思维推理以及与物理环境互动的能力,可广泛应用于AI眼镜、学习机、陪伴玩具、智能机器人等多种智能硬件设备。
该开发套件致力于为硬件制造商和系统解决方案提供商打造一个低门槛、高响应、场景覆盖广的技术平台。其核心优势体现在多个方面:
首先,在硬件兼容性上,套件已适配超过30款主流终端芯片,涵盖ARM、RISC-V和MIPS架构,能够满足当前大多数智能设备的快速接入需求。后续还将与玄铁RISC-V架构实现软硬协同优化,进一步提升通义大模型在RISC-V平台上的部署效率与推理性能。
其次,在模型能力方面,除集成通义系列大模型外,阿里云还针对AI硬件常见的多模态交互需求,专门研发了适用于此类场景的交互模型,全面支持全双工语音、视频、图文等多种交互方式。实测数据显示,端到端语音交互延迟最低可达1秒,视频交互延迟低至1.5秒,显著提升用户体验。
此外,套件预置了十余种MCP工具与Agent,覆盖出行规划、日程管理、娱乐教育等多个日常应用场景。例如,用户可通过内置的出行规划Agent直接获取路线建议、旅行指南以及周边吃喝玩乐推荐。同时,该套件已接入百炼平台生态,支持添加社区开发者共享的MCP与Agent模板,并通过A2A协议兼容第三方Agent,大幅拓展功能延展性,助力企业灵活构建定制化应用方案。
展会上,阿里云还展示了基于该套件在智能穿戴、家庭陪伴机器人、具身智能等领域的落地案例。在AI眼镜应用中,结合千问VL、百聆CosyVoice等模型,构建了包含感知、决策、执行与长期记忆的完整交互链条,实现同声传译、拍照翻译、多模态备忘记录、语音转写等一站式功能。
针对家庭陪伴机器人场景,依托千问大模型与多模态交互能力,所提供的解决方案不仅能实时监测异常情况并推送预警信息,还支持通过关键词检索历史视频片段,实现人机对话、指令控制及设备联动操作,提升家庭智能化水平。
