阿里云加速多模态大模型赛道布局,抢先卡位

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
万相2.6系列模型的发布,再度印证了一件事,只要阿里云提提速,全球大模型产业就会上一个强度。
阿里云将大模型战火烧到了多模态领域,这在行业预期之内。今年以来,多模态模型的调用量大规模增长,因为随着大模型的加速落地,行业很快发现,文本能解决的问题有限,现实世界天然就是多模态的输入输出形态,多模态模型预计成为未来一段时间产业竞争的主线。
行业预期之外的是,阿里云在多模态领域的追赶和落地效率。以往阿里云并不以多模态模型见长,不过就像谷歌联合创始人谢尔盖・布林所言,真正解决问题的是算法改进,过去十年里,算法层面的进步,其实跑得比算力提升还快。
阿里目前没有披露整体算法的技术细节,有据可查的是,通义万相在模型结构上集成了多项创新技术,可对输入参考视频进行多模态联合建模与学习,参考具有时序信息的主体情绪、姿态和多角度全面视觉特征,同时提取音色、语速等声学特征,在生成阶段作为参考条件控制,实现从画面到声音的全感官全维度一致性保持与迁移。
在AI军备竞赛中,新模型往往只是阿里云的冲锋号,更值得关注的,是阿里云三位一体的“打击”能力:首先拿出世界第一梯队级别的闭源模型,掌握技术和商业的主动权,然后做该领域的全开源,应用门槛大幅降低,应用生态加速繁荣,最后是让AI落地到产业,阿里云提供体系化的工程能力。
大模型,阿里云为何这么“卷”
在所有关于AI的叙事逻辑中,模型都是原点,但是,对于要不要自研模型,纵使头部厂商也有分歧。
例如早期OpenAI和微软的合作,凭借对OpenAI的前瞻性投资,微软拿到了GPT大模型的优先使用权,但OpenAI并不满足于成为微软体系内的模型供应商,双方早期紧密的绑定关系早已出现裂痕。
AWS信奉模型自由,“没有一个大模型能满足所有客户”,于是AWS引入各大模型托管到自家平台,然而,顶级模型具有稀缺性,要么在竞争对手那,要么模型企业倾向于自己提供服务,用户无法获得最好的模型体验。
和微软、AWS不同,阿里云坚定地走上了另一条路,坚定自研大模型,寻根究底的话,在于不同厂商对模型的认知不同。如果把模型视作最根本的核心竞争力,那么就必然要掌握在自己手中,反之则可以通过合作等方式来补足。
阿里云的观点是,未来模型将运行在所有计算设备中,并具备可持久记忆,端云联动的运行状态,甚至可以随时更新参数,自我迭代,类似今天的OS运行在各种环境之中。
对于一个操作系统级别的新技术,阿里巴巴理所当然地选择举全公司之力投入。随着时间的推移,微软和亚马逊也纷纷加大自研模型的投入,不再过度依赖其他模型厂商的供应,这也从侧面印证了阿里云早期战略预判的正确性。
回到模型本身,自研领先的闭源模型,对云厂商而言不仅是技术的象征,更是一种战略级资源。通义千问旗舰模型Qwen3-Max性能超过GPT5、Claude Opus 4等,跻身全球前三,顶尖闭源模型吸引了大量开发者、企业和合作伙伴在其上构建应用,形成高粘性网络效应,阿里云得以在产业链上占据主动权。
再以万相2.6系列为例,国内用户也能使用到Sora2级别的能力,其不仅是全球功能最全的视频生成模型,该系列模型面向专业影视制作和图像创作场景进行了全面升级,也是国内首个支持角色扮演功能的视频模型,同时支持音画同步、多镜头生成及声音驱动等功能。
模型领域有突出的马太效应,一步领先,步步领先。万相模型家族已支持文生图、图像编辑、文生视频、图生视频、人声生视频、动作生成、角色扮演及通用视频编辑等10多种视觉创作能力,已广泛应用于AI漫剧、广告设计和短视频创作等领域。
自研领先闭源模型,是云厂商从技术能力到商业生态、从竞争壁垒到战略主动权的核心引擎,也是未来竞争格局中最关键的筹码。
阿里开源的意义,还是被低估了
中国厂商素来在开源技术圈声量不大,拿得多贡献得少,到了大模型时代,阿里云成为国内最早开源自研大模型的“大厂”,也是全球唯一一家积极研发先进AI模型并且全方位开源的云计算厂商,业界率先实现“全尺寸、全模态”的全面开源。
阿里内部达成共识,通义千问选择开放路线,是为了打造AI时代的Android。在LLM时代,开源模型创造的价值和能渗透的场景,会远远大于闭源模型。
海外企业反而开始秘而不宣,不论是OpenAI、Anthropic这些大模型厂商,还是谷歌等巨头,甚至一开始走开源路线的Meta,都走上了闭源路线。
从2024年至今,阿里通义团队已开源300多款模型,包含大语言模型千问Qwen及视觉生成模型万相Wan等两大基模系列。
「全模态」指的是开源文本生成模型、视觉理解/生成模型、语音理解/生成模型、文生图及视频模型等;「全尺寸」指的是开源模型覆盖0.5B、0.6B、1.5B、1.7B、3B、4B、7B、8B、14B、30B、32B、72B、110B、235B、480B等参数,同时Qwen支持中、英、法、德、西、俄、日、韩、越、阿拉伯等119种语言及方言。
阿里提供了各种场景下的更好模型,这是由市场决定的,客户需求分散,行业场景千差万别,预算、时延、部署要求完全不同,某种程度上和AWS“没有一个大模型能满足所有客户”的理念类似,但是阿里云优先由自己来提供大语言模型、多模态模型,以及不同尺寸、不同成本、不同部署形态的模型组合。
对于全球开发者而言,Qwen开源模型已经成为依赖,美国AI专家Nathan Lambert发出“硅谷建立在Qwen之上”的惊叹,谷歌前CEO施密特甚至表示担心这将削弱美国技术领导力,因为大多数国家和公司会选择开源的中国开源大模型。
截至目前,通义千问Qwen衍生模型数量已突破18万,远超Meta Llama系列模型;通义千问Qwen在全球下载量超7亿,据彭博统计,截至2025年10月,千问Qwen下载量也已超越Llama模型,通义成为事实意义上的全球第一AI开源模型。
开源对于阿里云也大有裨益,作为AI和云计算市场的追赶者,开源模型让更多企业和开发者参与,也让阿里云成为底层规范和实践的参考,吸引更多的用户使用阿里云生态,这是一个双赢局面。
在一个高度依赖算力、数据和资本的赛道里,大模型天然有走向“寡头化”的风险。少数公司掌握最强模型、最先进算力,其余玩家只能围绕API做应用,行业创新的天花板被提前锁死。
阿里的开源,在某种程度上拉低了这条门槛。它让更多开发者、中小企业和行业玩家,有机会直接参与到底层模型与工程体系中,而不是永远停留在调用者的位置。
体系化AI工程,大模型深入产业场景
过去一年,阿里云AI算力增长超5倍,AI存力增长4倍多,头部车企正在基于Qwen-VL定制了自己的VLA和世界模型,数十家具身智能企业在和通义进行合作,甚至连竞争对手在进行具身领域的技术探索中,也使用了Qwen系列模型。
这说明,阿里云的能力边界早已超出模型之外,有了顶级闭源模型作标杆,开源模型实现能力下沉和生态繁荣,阿里云让前沿模型转化为产业价值的关键,就在于体系化的AI服务。
过去两年中,产业链厂商都在加速推出各类工具和服务,以支持生成式AI的完整工程化流水线,不再局限于对生成式AI模型进行简单的提示(prompt)调用,而是蔓延到数据准备、模型训练/精调、模型管理、评估、观测等模型全生命周期工具。
以时下火热的自动驾驶和具身智能为例,需要多模态模型端到端的服务。其中,汽车自动驾驶需处理采集车与量产车回传的海量图像数据,传统CV小模型的语义理解弱、泛化差、准确率低。
采用通义千问多模态大模型Qwen3-VL后,可一次性为图像打上数百个语义标签,泛化能力与检索准确率较传统方案提升50%以上,车企既可直接调用其云端服务处理难例场景,又可依托其开源开放特性自主微调模型,大幅降低标注与迭代成本。该方案已落地比亚迪、卓驭、元戎等厂商。
在具身智能研发中,Qwen-VL在云端数据标注阶段,可显著提升标注效率与数据质量,在端侧,面向Vision-Language-Action(VLA)架构的具身智能企业基于Qwen-VL开展后训练,加速了具身智能系统的工程化落地与高效迭代。
工程化能力的优势就在于它将模型的能力转化为可复用、可扩展、可落地的业务工具,极大降低了标注成本、训练成本和迭代时间,同时保证了系统的稳定性与可控性。
智能硬件也是多模态模型一个充满想象空间的市场,雷鸟V3 AI眼镜融合Qwen-VL、Qwen-Audio,AI识别准确率达98%;创维电视和闺蜜机依托Qwen-VL与CosyVoice,实现99%意图识别精度的深度内容搜索;听力熊V8基于Qwen-Omni和Qwen-VL能力,通过拍照触发AI讲解,交互频次翻倍。多模态能力正让AI深度融入物理世界,重塑终端体验。
此外,在金融场景非结构化数据的处理阶段,Qwen-VL可实现材料解析效率提升70%以上,定损、投研等流程从小时级压缩至分钟级。
结合如上实践来看,体系化AI工程的核心,就是把大模型的能力从实验室搬到产业场景,其中涉及到复杂的场景拆解和能力重组,它不仅包括模型本身的训练和优化,还涵盖数据采集与标注、算力调度、分布式训练、推理加速、微调与定制化部署等全链路能力,这也是阿里云作为云厂商的先天优势。
三位一体的全栈AI体系,使得阿里云有能力完成AI价值传导的闭环,真正把大模型从实验室推向现实世界,把能力优势转化为产业竞争力,也让整个行业的格局随之重塑。(作者|张帅,编辑|盖虹达)
相关攻略
近日,开源具身智能原生框架Dexbotic宣布正式支持以RLinf作为其分布式强化学习后端。对具身智能开发者而言,这不仅是一次普通的工程适配,更意味着VLA模型研发中长期存在的「SFT与RL割裂」问题,正在被真正打通。 这是一种典型的「乐高式协作」:双方不强行Fork、不粗暴揉合代码,而是保持清晰边
随着大模型参数规模不断增长,混合专家(Mixture-of-Experts, MoE)架构因其稀疏激活特性,成为平衡模型性能与计算开销的主流方案。然而,在实际的Web级应用部署中,一个关键挑战日益凸显:传统MoE的路由机制通常是“无记忆”的。 试想,在搜索引擎、智能问答或多轮对话等高并发场景下,用户
编程十年的一点分享 在软件开发的路上走过十几年,从一个爱好者到以此为业,有些体会或许值得聊聊,就当是抛砖引玉吧。 最早接触编程,是从BASIC和C语言开始的。工作后,随着需要,陆续学习了dBase、Access这类桌面数据库的开发。真正以开发为职业,可以说始于FoxPro 5 0,之后技术栈随着项目
引言 编程,是一门实践科学。这意味着,学习它的最佳方式就是动手去敲代码。但这是否意味着,我们可以因此轻视理论的学习呢? 入门编程 如果你去各大技术社区提问“该如何入门编程”,五花八门的答案会瞬间涌来。 不过,仔细梳理一下,无外乎以下几种流派: 学院派 他们推荐从C语言入手,并辅以数据结构、操作系统等
想象一下这个场景: 你让 AI Agent 帮你修一个代码 Bug。它打开项目,读了 20 个文件,改了改,跑了一下测试,没过,又改,又跑,还是没过……来回折腾了十几轮,终于——还是没修好。 你关掉电脑,松了口气。然后收到了 API 账单。 上面的数字可能让你倒吸一口凉气——AI Agent 自主修
热门专题
热门推荐
领克首款GT概念跑车亮相北京车展,由中欧团队联合打造。新车采用经典GT比例与低趴宽体设计,配备液态金属蓝涂装与2+2座舱,设有高性能模式按键可激活空气动力学套件。车辆采用后驱布局与AI智能运动控制系统,百公里加速约2秒,设计融合瑞典极简美学并参考全球用户反馈。
英伟达推出12GB显存版RTX5070移动GPU,与8GB版同步上市。两者均基于Blackwell架构,核心规格相同,仅显存容量不同。此举旨在缓解GDDR7芯片供应压力,为OEM提供灵活配置,加速笔记本产品布局,更大显存可更好满足游戏与AI应用需求。
微星将于5月15日推出两款26 5英寸雾面WOLED显示器MAG276QRY28和276QRDY54,售价分别为2499元和6299元。均采用第四代WOLED面板,具备QHD分辨率、VESADisplayHDRTrueBlack500认证、1500尼特峰值亮度及99 5%DCI-P3色域覆盖。276QRY28刷新率为280Hz,高阶款276QRDY54支持4
中芯国际2026年第一季度营收176 17亿元,同比增长8 1%;净利润13 61亿元,同比增长0 4%。公司预计第二季度收入环比增长14%至16%,毛利率指引上调至20%至22%。这反映出公司在行业复苏中展现出财务韧性,并通过运营优化增强了短期增长势头。
手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能,其背后都离不开人工智能(AI)技术的驱动。通常,AI模型的训练逻辑是:向模型展示大量“低质图像”与“优质图像”的配对数据,让它学习如何将前者转化为后者。然而,天津大学计算机视觉团队近期发表的一项研究(arXiv:2604 08172)揭





