北京智源开源Pelican-VL 1.0:刷新多模态模型性能 benchmark
11月14日,北京人形机器人创新中心正式宣布全面开源其具身智能视觉语言模型Pelican-VL 1.0。
根据最新发布的技术资料显示,该模型提供70亿与720亿两种参数规模选择,成为目前开源社区中参数规模最大的具身多模态大模型。同时,Pelican-VL在综合性能表现上已超越同类型国际主流模型,根据多维度基准测试结果,其性能较GPT-5同类模型提升15.79%,与Google Gemini系列模型相比提升19.25%,同时也超过了通义千问、书生万象等国内主流模型,堪称当前最强开源具身多模态大模型。

研发团队还首创了一套名为DPPO的刻意训练范式,这是全球首个专为具身多模态大模型设计的后训练自进化算法框架。借助这一创新方法,Pelican-VL仅使用20万数据量就实现了“性能最强”的目标,这个数据量仅为其他大模型的十分之一甚至五十分之一,当之无愧地成为开源视觉语言模型中性价比最高的代表。
Pelican-VL 1.0的开源发布,将显著提升具身智能在商业服务、工业制造、高危特种作业、家庭服务等多种实际应用场景中的表现。该模型通过视觉与语言感知相结合,能够有效辅助多步骤任务规划。视觉语言模型作为实现机器人全自主运作的核心技术,Pelican的开源将有力推动我国具身智能技术的自主化发展进程。

本次开源的Pelican-VL 1.0核心优势在于深度整合海量数据与自适应学习机制。该模型在由超过1000块A800 GPU组成的计算集群上进行训练,单次检查点训练消耗超过5万A800 GPU小时。团队从原始数据中提炼出包含数十亿token的高质量元数据作为训练基石,基于这些技术积累,Pelican-VL 1.0在基线基础上实现了20.3%的性能提升,平均超越Qwen3-VL系列、InternVL3.5系列等同级别开源模型10.6%。
得益于“刻意练习”DPPO训练范式,Pelican-VL的学习过程恰如一位刻苦钻研的学生:每个训练循环都遵循“观看视频-自主练习-发现错误-纠正提升”的迭代过程。通过模拟人类元认知的学习方式,结合强化学习探索模型弱点并生成失败样本,再进行有针对性的监督微调,使模型在持续自我纠错中不断进步。
正如学生在做错题后总结经验一样,Pelican-VL能在训练过程中发现“薄弱知识点”并及时补强,从而持续提升在视觉-语言与具身任务上的综合能力。借助这一机制,Pelican-VL能够更准确地理解图像内容、语言指令和物理常识,最终在决策与操作执行环节实现了具身智能在时空推理与动作规划方面的重要突破。
相关攻略
11 月 9 日消息,11 月 6 日,第八届中国国际进口博览会(简称“进博会”)期间,拜耳医药保健有限公司(以下简称“拜耳医药”)与北京人形机器人创新中心有限公司(以下简称“北京人形”)签署合作
11 月 14 日消息,北京人形机器人创新中心昨晚宣布全面开源具身智能 VLM 模型 ——Pelican-VL 1 0。从最新介绍获悉,该模型覆盖 7B、72B 参数规模,是迄今为止“最大规模的开
8 月 17 日消息,据央视新闻报道,2025 世界人形机器人运动会正在国家速滑馆举行。在刚刚结束的百米“飞人大战”决赛中,北京天工队的“具身天工 Ultra”机器人以 21 50 秒的成绩夺得全
热门专题
热门推荐
在文档数字化与智能处理领域,一款高效精准的在线工具能极大提升工作效率。今天重点评测的TextIn Tools,正是这样一个集OCR识别、格式转换于一体的全能型免费平台。它由上海合合信息科技开发,该公司在人工智能文字识别领域拥有超过17年的技术积累,实力深厚。我们熟悉的“扫描全能王”、“名片全能王”等
还在为制作PPT而烦恼吗?排版耗时、素材难寻、风格杂乱……这些常见困扰,或许一个智能工具就能高效化解。 WPS智能PPT,是一款基于先进人工智能技术的在线演示文稿辅助平台。其核心优势在于:用户仅需输入文本内容,内置的AI引擎便能自动进行视觉设计与美化,快速生成多种风格的精美版式供您挑选。这极大地简化
在追求高效办公的今天,各类AI工具不断涌现,但能够真正实现“一站式”智能集成的平台却屈指可数。本文将深入介绍的“超办AI”,正是这样一个致力于将多种AI能力深度融合,直接赋能日常工作效率的集成化平台。 超办AI是什么?一站式AI办公平台详解 简而言之,超办AI是一个智能办公解决方案平台。其核心理念非
学术灵感:AI驱动的中文论文写作辅助工具全解析 在科研写作过程中,从选题构思到初稿完成,研究者往往需要投入大量时间与精力。是否存在一种高效工具,能够在研究起点——即灵感激发与论文框架构建阶段——提供实质性帮助?本文将深入探讨的“学术灵感”平台,正是这样一款专注于中文论文写作场景的AI智能助手,旨在提
在视觉营销主导的数字化时代,一个名为“造物云”的在线3D营销设计平台正在重塑内容生产的规则。它本质上是一个基于浏览器的云端设计工具,其核心价值在于,让用户无需依赖复杂的专业软件或高昂的硬件,就能独立创作出具有商业摄影品质的3D渲染图片和动态视频。这为品牌营销、电商展示和社交媒体内容创作开辟了高效的新





