阿里发布千问3.6-Plus,国产编程大模型的“关键一跃”
2026年4月2日,阿里巴巴达摩院交出了一份硬核答卷——新一代大语言模型千问3.6-Plus正式亮相。这款模型不仅配备了高达100万token的长上下文窗口,更在多项权威编程评测中,坐上了国产模型的头把交椅。其整体编程能力已无限接近全球标杆Claude系列,能够自主搞定前端开发、复杂仓库任务乃至设计稿转网页等需求,被业界普遍认为是当前最强的国产编程大模型。
话说回来,这股编程大模型的竞赛热并非偶然。随着企业级数字化开发需求呈井喷之势,近两年来,编程能力已成为AI厂商最核心的角力场。在此之前,海外Anthropic公司推出的Claude系列,凭借其超强的长上下文处理能力和近乎苛刻的编程精度,长期霸占着全球编程大模型的榜首。国产模型虽然迭代速度不慢,但在处理复杂工程任务、理解庞大代码库这些“硬骨头”上,始终存在着一道看得见的差距。
市场从来不等人。国内云服务商、互联网企业对自主可控AI编程工具的需求持续攀升,这无疑倒逼着国产大模型厂商必须加速技术冲刺。千问3.6系列,正是阿里达摩院瞄准这一关键市场空白,进行定向攻坚的结晶。
不止于评测领先:定向优化的工程级能力
那么,这次发布的千问3.6-Plus究竟强在哪里?答案是:它针对真实的编程场景,做了多层深度优化,多项核心参数实实在在摸到了国际一流的天花板。
先看通用编程能力。在HumanEval、MBPP这些全球通用的编程“高考”评测集上,它的整体通过率相比前代千问3.5跃升了超过25%,所有指标都领跑国产阵营。更值得关注的是,它与编程专项王者Claude 3 Opus的得分差距,已经缩小到了不足3%。
当然,评测高分只是敲门砖,真正的考验在于能否应对工程级开发。为此,千问3.6-Plus祭出了100万token的长上下文窗口这把“利器”。这意味着什么?意味着它可以一次性“吞下”整个中型项目的全量代码库,无需工程师费劲地分段上传,就能完成对全仓库代码逻辑的理解、潜在Bug的排查乃至新功能的迭代。模型已经实现了开发全流程的自主化闭环,从需求拆解、代码编写、测试运行到Bug修复,不再需要人类工程师步步指引。也正因如此,它在处理复杂仓库任务时的完成率,从3.5版本的47%大幅提升至82%。
还有一个让前端开发者兴奋的亮点:依托原生的多模态训练,模型打通了从设计稿到可运行页面的“最后一公里”。无论是上传Figma设计稿、页面截图,甚至是手绘原型图,它都能直接输出符合生产规范的前端代码,页面还原度据说超过了90%。这差不多是把“设计即代码”的愿景又往前推进了一大步。
从实验室到生产线:商用落地按下加速键
性能的跨越式提升,直接转化为了商业落地的加速度。目前,千问3.6-Plus已经开放了API调用接口,能够为企业级用户提供深度定制化的部署服务。根据阿里达摩院相关负责人的透露,该模型已在阿里内部多个核心场景,如电商前端开发和云服务运维中进行了实战测试。效果如何?在相同的开发需求下,工程师的人均效率提升了超过40%;而排查一个复杂Bug的平均时间,更是从过去的2小时左右,锐减到了15分钟以内。这种效率革命,对于追求迭代速度的研发团队而言,无疑具有巨大的吸引力。
业内分析普遍认为,这款模型的推出,将有望打破海外大模型在高端编程场景下的市场垄断,为国内众多的软件研发团队,尤其是中小企业,提供一个成本更低、本土适配性更强的AI开发伙伴。可以预见,随着其多模态编程能力的持续打磨,未来它所能覆盖的工业级开发场景,只会越来越广。

