首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
字节跳动开源多模态AI模型Lance:轻量原生统一架构解析

字节跳动开源多模态AI模型Lance:轻量原生统一架构解析

热心网友
13
转载
2026-05-25

多模态AI领域迎来重要突破。字节跳动正式开源Lance模型,这款轻量级多模态AI仅3B激活参数,却实现了真正的“原生统一”架构,能够同时处理图像与视频的理解、生成及编辑任务。这意味着单个模型即可完成文生图、图生文、视频生成、视觉问答等过去需要多个专用模型协作的复杂工作。

“拼好模”:字节跳动开源轻量原生统一多模态 AI 模型 Lance

与当前主流的“拼接式”方案不同,Lance采用了更彻底的统一设计思路。现有方法通常将视觉理解模块与生成模块分开训练再组合,而Lance从训练初期就将图像理解、视频理解、图像生成、视频生成及跨模态编辑五大能力整合进同一框架。其核心目标是构建一个能处理任意模态输入(文本、图像、视频),并输出文本(X2T)、图像(X2I)或视频(X2V)的通用多模态系统。

实现这一目标面临本质挑战:理解任务依赖高度抽象的高层语义特征,而生成任务则需要保留细节纹理、几何结构与时间动态等底层连续信息,二者需求存在内在矛盾。Lance的创新之处,正是通过精巧的架构设计,在一个模型中平衡并兼顾了这两种看似冲突的目标。

共享上下文与能力解耦并行的架构设计

为实现原生统一,Lance采用了“共享上下文,能力解耦并行”的架构。所有输入的文本、图像和视频首先被转换为统一的交错序列,随后送入一个双流专家架构。其中一条专家流专门处理理解任务,另一条则专注于生成任务,实现能力解耦。

具体实现上:文本标记源自Qwen2.5-VL的嵌入层;对于侧重理解的视觉输入(如图像描述、视觉问答),模型使用Qwen2.5-VL的ViT编码器提取语义化视觉标记;对于侧重生成的视觉输入(如图像/视频编辑参考),则通过Wan2.2的3D因果VAE编码为连续潜在表示,并进行了16倍空间下采样与4倍时间下采样。

在注意力机制方面,模型在完整上下文序列上应用了广义3D因果注意力。文本采用因果注意力(仅可见前文),而视觉标记采用双向注意力(可见完整视觉上下文),从而更好地建模视觉元素间的复杂关系。

解决多模态序列边界模糊的难题

当序列中混合文本、图像块、视频帧等多种标记时,模型容易混淆不同视觉内容的边界。为此,Lance引入了创新的MaPE(模态感知旋转位置编码)技术。

该技术通过为不同模态的标记组添加固定时间偏移,在保持图像空间结构与视频时序连贯性的同时,清晰界定序列中各类视觉标记的起止范围。这相当于为不同来源的数据打上独特标识,使模型能准确识别和处理混合模态信息。

四阶段高效训练与可控算力投入

复杂能力的集成依赖科学的训练策略。Lance的训练分为四个渐进阶段:

预训练阶段:使用约10亿图文对和1.4亿视频-文本对,总计约1.5万亿标记,构建多模态通用基础能力。

持续训练阶段:引入图像/视频编辑、主体驱动生成及复杂多模态理解数据,规模约3000亿标记,塑造专项任务能力。

监督微调阶段:使用720亿标记的高质量指令数据,重点提升模型遵循复杂指令的能力以及在生成任务中保持身份一致性的能力。

强化学习阶段:采用创新的“组相对策略优化”方法,结合PaddleOCR作为奖励模型,专门优化生成内容的文字渲染准确度与图文对齐质量。整个训练过程的算力预算控制在最多128张GPU内,在动辄需要数千张卡的大模型训练背景下,展现出极高的效率与实用性。

基准测试表现与性能评估

在实际评测中,Lance在“统一多模态模型”类别中表现卓越:

图像生成方面:在GenEval基准上获得0.90总分,与优秀模型TUNA并列前茅。

视频生成方面:VBench总分达到85.11,超越TUNA(84.06)、HunyuanVideo(83.43)和Wan2.1-T2V(83.69)。

图像编辑任务:GEdit-Bench得分达到7.30。

视频理解方面:MVBench得分达到62.0,显著高于7B参数量的Show-o2模型(55.7)。

测试数据表明,Lance在保持模型轻量化的同时,在多模态理解与生成的多个关键维度均达到了行业领先的竞争力。

开源信息与获取方式

Lance模型已全面开源,采用宽松的Apache 2.0许可证,模型权重已在Hugging Face平台发布。运行推理需准备Python 3.10以上环境、CUDA 12.4及以上版本,以及至少40GB显存。这为AI开发者与研究人员提供了高效、易用的轻量级多模态基础模型选择。

来源:https://www.ithome.com/0/953/848.htm
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

字节跳动与港科大推出MMProLong模型 长文档多模态训练效率显著提升
AI资讯
字节跳动与港科大推出MMProLong模型 长文档多模态训练效率显著提升

字节跳动与港科大联合发布MMProLong模型,针对多模态长文档训练提出新方法。研究发现,采用针对性问答对训练优于传统OCR转录,能显著提升长上下文信息检索能力。该模型在有限数据下表现稳定,并在多项测试中超越更大规模开源模型,证明优化数据组织可高效提升性能,为多模态长文本处理提供。

热心网友
05.25
字节跳动开源多模态AI模型Lance:轻量原生统一架构解析
AI资讯
字节跳动开源多模态AI模型Lance:轻量原生统一架构解析

字节跳动开源轻量级多模态AI模型Lance,参数量仅3B。该模型采用原生统一架构,能同时处理图像与视频的理解、生成及跨模态编辑任务。其通过共享上下文与能力解耦并行设计,并引入模态感知旋转位置编码技术,有效区分多模态序列边界。训练分四阶段进行,算力控制在128张GPU内。基准测试显示,Lance在图像生。

热心网友
05.25
AI老师如何读懂学生表情字节跳动研究新突破
科技数码
AI老师如何读懂学生表情字节跳动研究新突破

字节跳动研究团队提出自适应教师暴露机制,用于优化AI自我学习。该机制动态调节教师模型可看到的参考答案比例,使其匹配学生模型当前理解水平。实验表明,动态调整信息暴露量能显著提升模型在数学竞赛数据集上的表现,挑战了教师信息越多越好的固有认知。

热心网友
05.24
字节跳动开源Lance 3B模型实现图文理解与生成一体化
AI资讯
字节跳动开源Lance 3B模型实现图文理解与生成一体化

字节跳动开源原生统一多模态模型Lance,仅30亿参数即实现视觉理解与生成任务的全能覆盖。其采用共享上下文与双流专家架构,通过统一交错序列和模态感知位置编码化解能力冲突。模型经四阶段高效训练,在多项基准测试中表现超越更大参数模型,显著降低多模态应用部署成本与算力需求。

热心网友
05.23
字节跳动上海小荷门诊部落地实体医疗再布局
业界动态
字节跳动上海小荷门诊部落地实体医疗再布局

字节跳动旗下“小荷健康”计划在上海开设门诊部,推进线上线下医疗融合。此前通过更名、收购及推出AI应用,逐步构建诊疗闭环。上海作为重要市场,成为其深化布局的关键一步,但线下医疗面临专业性及回报周期等挑战,未来发展有待观察。

热心网友
05.22

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

量化人才价值转变从因子猎手到AI品味把关人
科技数码
量化人才价值转变从因子猎手到AI品味把关人

当一家头部量化私募机构,凭借自主研发的AI Agent智能体矩阵,仅耗时7天就高效完成了以往需要长达90天甚至180天才能走完的完整研究流程时,一个明确的行业信号已然显现:人工智能在量化投资领域的应用深度,已从初期锦上添花的辅助角色,全面升级为足以重构整个行业生产力底层逻辑的核心基础设施。 然而,这

热心网友
05.27
PPT制作思维导图的几种实用方法与技巧
AI教程
PPT制作思维导图的几种实用方法与技巧

思维导图能有效梳理思路并提升信息传递效率。在PPT中可通过三种方法制作:一是利用SmartArt图形快速插入并编辑层次结构;二是手动绘制形状和连接线以实现高度自定义;三是借助专业软件制作后以图片形式插入。这些方法均旨在通过视觉化工具使幻灯片内容更清晰有条理。

热心网友
05.27
港股AI大模型板块表现活跃 MiniMax与智谱股价显著上涨
AI资讯
港股AI大模型板块表现活跃 MiniMax与智谱股价显著上涨

港股AI大模型板块持续走强,MiniMax与智谱被视为“双子星”引领板块。MiniMax被纳入相关指数带来资金支撑,智谱凭借GLM架构占据核心地位。板块驱动因素包括监管趋于明确、商业化进展不断兑现以及被动资金持续流入。市场正从概念炒作转向验证真实技术与商业落地能力,推动相关标的价值重估。

热心网友
05.27
饼干人联盟欢乐果冻森林1-10关通关攻略与技巧详解
游戏资讯
饼干人联盟欢乐果冻森林1-10关通关攻略与技巧详解

在《饼干人联盟》的冒险旅程中,欢乐果冻森林的1-10关卡是许多玩家遇到的第一个重要挑战。这一关不仅是前期资源积累的关键节点,也是检验队伍配置与操作技巧的绝佳机会。为了帮助大家顺利攻克难关并获取丰厚奖励,我们准备了这份详细的通关攻略。 一、关卡BOSS解析:幸福花 本关的守关首领是幸福花。虽然名字听起

热心网友
05.27
伊朗国际互联网服务已全面恢复
科技数码
伊朗国际互联网服务已全面恢复

伊朗电信基础设施迎来重要升级。该国于26日正式宣布,其国际互联网带宽与连接已实现稳定、全面的恢复。 此次恢复意味着,伊朗境内的固定宽带用户现已能够顺畅访问全球网络,正常使用国际网站、在线应用及各类数字服务。此前,伊朗通信部门已多次表明,正在有序推进国际互联网接入的修复与优化工作。官方强调,此举旨在从

热心网友
05.27