快手开源6710亿参数多模态大模型,重塑视觉推理新标杆
快手近期正式开源了新一代多模态大模型 Keye-VL-671B-A37B。这款基于 DeepSeek-V3-Terminus 架构的模型拥有 6710 亿参数,在视觉感知、跨模态对齐和复杂推理能力上实现了显著突破。通过系统化的预训练和后训练策略,该模型在通用视觉理解和视频理解领域展现出超越同类产品的性能表现。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
在图像识别测试中,Keye-VL-671B-A37B 展现出惊人的细节捕捉能力。当面对三张票据的识别任务时,模型不仅能准确识别出文字和格式差异,更通过逻辑推理判断出其中仅有两张为电影票,第三张实为食品兑换券。这种超越表面识别的深度理解能力,源于模型对视觉元素与语义信息的精准关联。在视频理解测试中,该模型能精准捕捉"蓝色双层电车"等核心元素,并完整复现镜头运动轨迹和场景转换细节。
性能对比数据显示,在 26 项主流基准测试中,新模型在 18 项指标上取得领先成绩。特别是在 STEM、推理、视频理解等复杂任务领域,其表现超越字节跳动 Seed1.5-VL+think 和阿里 Qwen3-VL+ 235B-A22B 等前沿模型。这种优势得益于其独特的三阶段预训练体系:首阶段冻结视觉与语言模块,专注特征对齐;次阶段全参数训练;末阶段通过退火训练强化细粒度感知。整个过程仅使用 300B 高质量数据,相比其他动辄万亿级的数据规模,展现出更高的训练效率。
后训练阶段采用创新的混合数据策略,将指令数据与长思维链(Long-CoT)数据按特定比例融合。实验表明,这种组合使模型在保持指令响应能力的同时,显著提升复杂推理的稳定性。技术团队开发的严格数据筛选流程,有效过滤了冗余反思内容,确保思维链数据的精炼性。在强化学习环节,模型采用阿里 Qwen3 系列同源的 GSPO 算法,通过序列层建模提升训练稳定性,并配备专用 Verifier 模型验证推理逻辑,使答案准确率提升显著。
该模型现已在 Hugging Face 和 GitHub 平台开放下载,开发者可访问指定链接获取完整代码库。其视觉编码器继承自今年 9 月开源的 Keye-VL-1.5 模型,其 80 亿参数版本已支持 128k tokens 上下文扩展。技术文档显示,新模型在多模态数学数据集上的平均准确率提升达 1.33%,在开源感知基准测试中提升 1.45%,展现出强大的跨领域适应能力。
通过持续优化数据管线,快手构建了覆盖 OCR、图表、表格等复杂格式的自动化处理流程。这种系统化训练方法使模型能准确解析视觉信号中的关键信息,为后续开发多模态 Agent 能力奠定基础。当前版本已具备基础工具调用能力,未来将强化在真实场景中的自主推理与任务执行能力,推动多模态系统向更实用的方向发展。
热门专题
热门推荐
加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这
微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿
稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D
基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一
PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票





