快手Keye-VL模型升级：多模态理解与推理能力再突破

时间：2025-11-29 10:13

快手在人工智能领域再推重磅成果，正式对外发布新一代旗舰级多模态模型Keye-VL-671B-A37B，并同步开源其核心代码。这款以“视觉理解与逻辑推理深度融合”为特色的模型，在通用视觉识别、视频内容

快手的AI实验室再次在人工智能领域实现技术突破，正式发布新一代旗舰级多模态模型Keye-VL-671B-A37B，并同步开源其核心代码。这款以"视觉理解与逻辑推理深度融合"为特色的模型，在通用视觉识别、视频内容分析、数学问题求解等关键技术评测中展现出明显优势，标志着我国多模态大模型研发迈入全新阶段。

据技术团队介绍，该模型通过架构创新实现了三大突破：在视觉感知层面，基于升级版KeyeViT视觉编码器构建的视觉模块，能够精准捕捉图像细节特征；跨模态对齐机制采用动态注意力分配策略，使文本与视觉信息的融合效率提升40%；推理链条设计引入层级化思维框架，支持从基础认知到复杂决策的逐步推导。这些改进使模型在真实场景中的响应准确率达到92.3%，较前代产品提升17个百分点。

模型训练体系呈现出显著的工程化特征。研发团队构建了包含3000亿token的预训练数据集，其中高质量图文对占比达65%，视频数据经过时空语义标注处理。训练流程采用三阶段渐进式优化：首阶段冻结核心参数完成模态对齐，第二阶段全参数联合训练构建基础能力，最终通过退火训练强化细粒度特征提取。后训练阶段引入多任务联合优化机制，覆盖视觉问答、图表解析、多语言OCR等20余个专业领域。

在基础架构方面，模型采用DeepSeek-V3-Terminus作为语言基座，通过多层感知机（MLP）实现与视觉模块的解耦连接。这种设计既保证了语言理解能力的继承性，又为视觉特征提取保留了独立优化空间。实测数据显示，在处理包含复杂视觉元素的推理任务时，模型响应速度较传统融合架构提升2.3倍，内存占用降低35%。

快手AI实验室负责人透露，下一代研发将聚焦两大方向：一是强化工具调用能力，通过构建多模态代理（Agent）系统，使模型能自主调用搜索引擎、计算器等外部工具；二是深化"视觉思维"研究，开发支持图像/视频内容深度解析的推理框架。目前团队已启动相关技术预研，预计年内推出具备初级工具使用能力的实验版本。

行业分析师指出，该模型的开源策略将加速多模态技术生态建设。其提供的模块化设计允许开发者根据需求定制功能组件，尤其在医疗影像分析、工业质检等垂直领域具有广泛应用前景。随着模型能力的持续进化，多模态AI系统正从单一感知向认知决策层面突破，这或将重新定义人机交互的技术边界。

来源：https://www.itbear.com.cn/html/2025-11/1032265.html

上一篇特斯拉FSD下月登陆德国，用户可试乘体验自动驾驶 下一篇1688出海新策略：AI智能体如何助力跨境突围

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

最新消息称国行苹果iPhone 18 Pro Max电池容量达到了5391mAh增幅11.78%

科技数码 · 2026-07-05

HMD发布四款诺基亚功能手机配备AI按键与可拆卸电池

HMDGlobal推出4款诺基亚功能手机，均配1450mAh可拆卸电池及独立AI按键，支持语音控制，免费180天后付费。部分机型带摄像头，支持microSD卡扩展至32GB，具双SIM卡、3 5mm接口及蓝牙5 0。

科技数码 · 2026-07-05

云南以旧换新补贴扩围新增智能影音与无人机

云南省自2026年7月起扩大消费品以旧换新补贴范围，新增智能门锁、智能影音、无人机、数码相机等数码智能产品及吸油烟机、燃气灶、洗碗机、净水器等家电。按最终售价15%补贴，每类每件最高1500元，商户报名无限制。

科技数码 · 2026-07-05

小米Redmi 7英寸高性能手机传闻即将发布

最近圈内又有新动静了。据博主 @数码闲聊站今天爆料，某家厂商的子系列下一代打算推出两款屏幕尺寸差异明显的机型：一块是 6 59 英寸的中屏 Pro，另一块则是 7 英寸的巨屏性能机。从该博主以往的爆料习惯来看，基本可以锁定是小米 REDMI 品牌的产品线布局。有意思的是，早在今年 2 月，这位博

科技数码 · 2026-07-05

深光影像AF35mmF2.2CE全画幅镜头E/L卡口739元起售

深光影像AF35mmF2 2CE全画幅镜头开售，提供E卡口和L卡口，标准版七百三十九元，套装版七百八十九元。全金属机身，重约一百七十五克，高三十六毫米，滤镜口径五十二毫米，光学结构五组七片，九片光圈叶片，最近对焦零点三五米，支持自动对焦。