6月2日,阿里巴巴正式发布了千问3.7系列的全新多模态大模型——Qwen3.7-Plus。根据阿里云内部披露的信息,此次升级在文本理解与视觉识别能力上均实现了显著提升。尤为值得关注的是,Qwen3.7-Plus在多模态混合智能体领域取得了实质性突破——它不再仅仅是一个能够“看懂”图片与视频的模型,而是真正将“观察、推理、生成、执行、验证”整合至一个统一的智能体工作流之中。
具体而言,该模型不仅能准确理解用户提供的图片或视频内容,还能在此基础上进行深度推理、自主编写代码、调用外部工具、验证测试结果,甚至根据反馈不断迭代优化。这意味着,像一键复刻手机APP、操作桌面端专业软件这类复杂的长程任务,它已能够相对流畅地完成。从“理解内容”到“动手执行”,再到“自我检验与优化”,这种完整闭环正是多模态大模型走向实际应用的关键所在。
目前,Qwen3.7-Plus已在阿里云百炼平台正式上线,并对外开放API服务。对于开发者与企业用户而言,这意味着可以直接将这种多模态智能体的能力集成到自身产品中,无需再像以往那样组合多个模型与工具来勉强实现类似效果。
