中国科学院自动化研究所与武汉人工智能研究院联合推出的紫东太初4.0多模态大模型迎来重大升级。这款肇始于2024年的智能系统经过四次迭代,已从一个基础文本处理工具蜕变为能够应对复杂场景推理的多模态平台,在人工智能模拟人类思维的探索中取得突破性进展。
项目带头人王金桥表示,新版本创新性地克服了传统单模态模型的局限,搭建起"视觉-语言-动作"的跨模态认知网络。在实际应用中,当患者说出"我想挂呼吸科"时,系统不仅能理解语音指令,还可以结合症状描述智能分流科室,并直接完成挂号操作。这种端到端的闭环能力使其在处理长达3小时的视频内容时,可以精确定位核心画面并自动生成简报。
技术实现方面,紫东太初4.0首创"精细化语义理解"机制,让AI能以接近人类的方式处理多源信息。在智能驾驶测试中,系统通过摄像头画面配合语音中的空间指令,就能准确完成"降下右后车窗"等操作。这一突破得益于团队研发的自适应注意力算法,使模型能智能调配算力资源。
该技术现已实现多行业落地:医疗方面,为顶级医院提供智能分诊和医学影像识别;智慧出行领域,与新能源车企合作开发智能座舱;物流场景中,则支持无人机进行动态路径规划。据研发团队透露,其定制化方案现已延伸至交管系统、工业质检等20多个专业领域,构建了从核心技术到商业应用的完整闭环。
