游乐游手机版
首页/科技数码/文章详情

快手Keye-VL模型升级:多模态理解与推理能力再突破

时间:2025-11-29 10:13
快手在人工智能领域再推重磅成果,正式对外发布新一代旗舰级多模态模型Keye-VL-671B-A37B,并同步开源其核心代码。这款以“视觉理解与逻辑推理深度融合”为特色的模型,在通用视觉识别、视频内容

快手的AI实验室再次在人工智能领域实现技术突破,正式发布新一代旗舰级多模态模型Keye-VL-671B-A37B,并同步开源其核心代码。这款以"视觉理解与逻辑推理深度融合"为特色的模型,在通用视觉识别、视频内容分析、数学问题求解等关键技术评测中展现出明显优势,标志着我国多模态大模型研发迈入全新阶段。

据技术团队介绍,该模型通过架构创新实现了三大突破:在视觉感知层面,基于升级版KeyeViT视觉编码器构建的视觉模块,能够精准捕捉图像细节特征;跨模态对齐机制采用动态注意力分配策略,使文本与视觉信息的融合效率提升40%;推理链条设计引入层级化思维框架,支持从基础认知到复杂决策的逐步推导。这些改进使模型在真实场景中的响应准确率达到92.3%,较前代产品提升17个百分点。

模型训练体系呈现出显著的工程化特征。研发团队构建了包含3000亿token的预训练数据集,其中高质量图文对占比达65%,视频数据经过时空语义标注处理。训练流程采用三阶段渐进式优化:首阶段冻结核心参数完成模态对齐,第二阶段全参数联合训练构建基础能力,最终通过退火训练强化细粒度特征提取。后训练阶段引入多任务联合优化机制,覆盖视觉问答、图表解析、多语言OCR等20余个专业领域。

在基础架构方面,模型采用DeepSeek-V3-Terminus作为语言基座,通过多层感知机(MLP)实现与视觉模块的解耦连接。这种设计既保证了语言理解能力的继承性,又为视觉特征提取保留了独立优化空间。实测数据显示,在处理包含复杂视觉元素的推理任务时,模型响应速度较传统融合架构提升2.3倍,内存占用降低35%。

快手AI实验室负责人透露,下一代研发将聚焦两大方向:一是强化工具调用能力,通过构建多模态代理(Agent)系统,使模型能自主调用搜索引擎、计算器等外部工具;二是深化"视觉思维"研究,开发支持图像/视频内容深度解析的推理框架。目前团队已启动相关技术预研,预计年内推出具备初级工具使用能力的实验版本。

行业分析师指出,该模型的开源策略将加速多模态技术生态建设。其提供的模块化设计允许开发者根据需求定制功能组件,尤其在医疗影像分析、工业质检等垂直领域具有广泛应用前景。随着模型能力的持续进化,多模态AI系统正从单一感知向认知决策层面突破,这或将重新定义人机交互的技术边界。

来源:https://www.itbear.com.cn/html/2025-11/1032265.html
上一篇特斯拉FSD下月登陆德国,用户可试乘体验自动驾驶 下一篇1688出海新策略:AI智能体如何助力跨境突围
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
最新消息称国行苹果iPhone 18 Pro Max电池容量达到了5391mAh增幅11.78%
科技数码 · 2026-07-05

最新消息称国行苹果iPhone 18 Pro Max电池容量达到了5391mAh增幅11.78%

国行iPhone18ProMax电池容量达5391mAh,较前代增幅11 78%,增量近568mAh;Pro机型仅小幅提升68mAh。爆料称最终数据待验证,若属实则续航将显著增强。

HMD发布四款诺基亚功能手机 配备AI按键与可拆卸电池
科技数码 · 2026-07-05

HMD发布四款诺基亚功能手机 配备AI按键与可拆卸电池

HMDGlobal推出4款诺基亚功能手机,均配1450mAh可拆卸电池及独立AI按键,支持语音控制,免费180天后付费。部分机型带摄像头,支持microSD卡扩展至32GB,具双SIM卡、3 5mm接口及蓝牙5 0。

云南以旧换新补贴扩围 新增智能影音与无人机
科技数码 · 2026-07-05

云南以旧换新补贴扩围 新增智能影音与无人机

云南省自2026年7月起扩大消费品以旧换新补贴范围,新增智能门锁、智能影音、无人机、数码相机等数码智能产品及吸油烟机、燃气灶、洗碗机、净水器等家电。按最终售价15%补贴,每类每件最高1500元,商户报名无限制。

小米Redmi 7英寸高性能手机传闻即将发布
科技数码 · 2026-07-05

小米Redmi 7英寸高性能手机传闻即将发布

最近圈内又有新动静了。据博主 @数码闲聊站 今天爆料,某家厂商的子系列下一代打算推出两款屏幕尺寸差异明显的机型:一块是 6 59 英寸的中屏 Pro,另一块则是 7 英寸的巨屏性能机。从该博主以往的爆料习惯来看,基本可以锁定是小米 REDMI 品牌的产品线布局。 有意思的是,早在今年 2 月,这位博

深光影像AF35mmF2.2CE全画幅镜头E/L卡口739元起售
科技数码 · 2026-07-05

深光影像AF35mmF2.2CE全画幅镜头E/L卡口739元起售

深光影像AF35mmF2 2CE全画幅镜头开售,提供E卡口和L卡口,标准版七百三十九元,套装版七百八十九元。全金属机身,重约一百七十五克,高三十六毫米,滤镜口径五十二毫米,光学结构五组七片,九片光圈叶片,最近对焦零点三五米,支持自动对焦。