阿里开源下一代模型架构Qwen3-Next,模型训练及推理性价比创新高
9月12日,阿里通义发布下一代基础模型架构Qwen3-Next。Qwen3-Next针对大模型在上下文长度和总参数两方面不断扩展(Scaling)的未来趋势而设计,采用全新的高稀疏MoE架构,并对经典Transformer核心组件进行了重构,创新线性注意力和自研的门控注意力结合的混合注意力机制,实现了模型训练和推理的双重性价比突破。
基于这一新架构,阿里通义“打样”了Qwen3-Next-80B-A3B系列模型,开源指令(Instruct)和推理(Thinking)两大模型版本。新模型总参数 80B 仅激活 3B,性能可媲美千问3旗舰版235B模型,模型计算效率大幅提升。Qwen3-Next训练成本较密集模型Qwen3-32B大降超90%,长文本推理吞吐量提升10倍以上,并可支持百万Tokens超长上下文。
相关攻略

10月15日消息,据科技媒体 BGR 报道,谷歌有望于 10 月 22 日发布下一代 AI 模型 Gemini 3 0,主要改进延迟、成本和编码方面,并显著提升 SVG 图像生成性能。在 OpenA

10 月 2 日消息,据美国 CNBC 今日报道,Hugging Face 联合创始人托马斯・沃尔夫表示,目前来自 OpenAI 等实验室的 AI 模型不太可能带来重大科学突破。从报道中获悉,沃尔

9月12日,阿里通义发布下一代基础模型架构Qwen3-Next。Qwen3-Next针对大模型在上下文长度和总参数两方面不断扩展(Scaling)的未来趋势而设计,采用全新的高稀疏MoE架构,并对经

尽管Meta已开始着手下一代AI模型的开发,并计划在年内发布,但当前的动荡无疑增加了项目的不确定性。一场原本想借助Scale AI稳定局势的押注,如今反成不稳定的导火索。 今年6月,Meta向数据标

苹果公司近日宣布,将向第三方开发者开放其人工智能模型,旨在激发新应用的创造力,并提升其设备的吸引力。知情人士透露,这一计划将在6月9日的全球开发者大会(WWDC)上正式发布。苹果希
热门专题


热门推荐

山寨币的淘金热:寻找百倍币的十大潜力交易所在加密货币的世界里,除了比特币和以太坊这些主流币之外,还有着无数的山寨币(Altcoins)。

当地时间10月13日,2025年世界技能组织全体成员国大会于克罗地亚举行。东软创始人、东软睿新科技集团董事长刘积仁作为中国首家世界技能组织全球高级合作伙伴受邀出席大会并签署协议。这既是东软发展历程中

10月14日消息,哈弗SUV今晚发布了《关于哈弗猛龙PHEV车型后备箱地板积水问题的声明》。近期,我们收到部分用户反馈“哈弗猛龙PHEV后备箱地板积水”,对此,我们高度重视,第一时间进行调查、排查。

近日,雷诺集团“Tech World Tour”(科技世界探索)全球项目在中国正式启动,这是该集团构建国际化科技创新交流平台的重要一站。此前,雷诺已在法国和西班牙设立了全新项目站点,此次中国之行也是

在日常生活中,人们对于便捷服务的需求日益增长。京东外卖骑手帮扔垃圾服务引发了不少人的关注,那么这项服务究竟是真的吗?又在哪里可以享受到呢?首先,京东外卖骑手帮扔垃圾服务确实是真实存