多模态大语言模型全面综述：架构、训练、数据、评估、扩展、应用、挑战与机遇_AI热点日报

多模态大语言模型（MLLM）以大型语言模型为核心，通过模态接口融合视觉、音频等信号，执行看图写故事、无OCR数学推理等新兴任务。综述梳理了其架构、训练策略与数据配方，探讨了多模态幻觉、上下文学习、链式推理等关键技术，并展望了未来方向与挑战。

近一年来，多模态大语言模型（MLLM）可以说是在人工智能圈掀起了一股新的研究热潮。以GPT-4V为代表，这类模型把功能强大的大型语言模型（LLM）当作“大脑”，去执行各种多模态任务。更让人眼前一亮的是，MLLM涌现出了一些传统方法难以企及的新能力——比如光看一张图就能写出一段故事，或者在不借助OCR的情况下完成数学推理。这些迹象似乎指向了一条通往通用人工智能的潜在路径。也正因如此，无论是学术界还是工业界，都在卯足了劲开发能跟GPT-4V一较高下、甚至更胜一筹的MLLM，几乎是日新月异地刷新着研究天花板。这份综述的目标，就是对多模态大语言模型（MLLM）的最新进展做一个全面的梳理和总结。我们先从最基础的公式讲起，说清楚它的核心概念，包括系统架构、训练策略、数据分布以及评估方式。接着，我们会讨论如何把MLLM扩展到更精细的粒度、更多的模态、更广的语言支持和更丰富的应用场景中来。然后，重点分析多模态幻觉问题，以及几项关键扩展技术——多模态上下文学习（M-ICL）、多模态链式推理（M-CoT）和基于LLM的视觉推理（LA VR）。最后，我们会指出当前面临的挑战，并展望几个值得关注的研究方向。多模态大语言模型全面综述：架构，训练，数据，评估，扩展，应用，挑战，机遇

1 引言近年来，LLM的进步可以说是突飞猛进。通过不断扩大数据量和模型规模，这些LLM展现出惊人的“涌现能力”，主要包括指令跟随、上下文学习（ICL）和思维链（CoT）。然而，尽管LLM在大多数自然语言处理任务上已经能做到惊人的零样本或少样本推理，但它们天生对视觉内容是“盲”的——毕竟它们只能处理离散的文本符号。另一边，大型视觉模型（LVM）虽然能清晰地“看”东西，但在逻辑推理上往往差了一截。这种互补性，让LLM和LVM很自然地走到了一起，催生了多模态大语言模型（MLLM）这个全新领域。用正式一点的话说，MLLM就是以LLM为核心、能够接收、推理并输出多模态信息的模型。在MLLM诞生之前，多模态领域已经有不少工作，主要可分为判别式和生成式两类。CLIP是前者的代表，它把视觉和文本信息投影到一个统一的表示空间里，相当于在多模态任务之间搭了一座桥。而OFA则是后者的代表，以序列到序列的方式统一处理多模态任务。按照序列操作的标准来看，MLLM可以被归为生成这一类，但它跟传统方法有两个根本性的区别：第一，MLLM的骨干是数十亿参数级别的LLM，这是以前不具备的；第二，MLLM采用了全新的训练范式，比如通过多模态指令调整来让模型学会执行新指令。正是这两点，让MLLM具备了像“根据图像编写网站代码”、“理解梗图背后的深层含义”或“无OCR进行数学推理”这样的新本领。自从GPT-4发布以来，它展示的那些惊艳的多模态示例，直接把MLLM的研究热度推向了顶点。学术界和工业界的双向推动，让这一领域发展得异常迅猛。早期的研究基本都集中在根据文本提示和图像、视频或音频生成文本内容上。而后续工作则不断拓宽能力和应用场景：比如，开发出更精细的用户提示控制，支持通过框选或点击特定对象来定位区域；再比如，增强输入和输出模态的支持，图像、视频、音频甚至点云都能作为输入，而像NExT-GPT这样的项目更是实现了跨模态输出；语言支持方面，研究者也努力把MLLM的能力扩展到中文这类语料相对有限的语种上；此外，MLLM的魔力还向其他领域延伸，比如医学影像理解和文档解析，甚至还催生了能跟现实世界交互的多模态智能体，比如具身智能体和GUI智能体。图1清晰地展示了MLLM这一路走来的时间线。鉴于这个领域发展得实在太快且成果斐然，我们编写了这篇综述，希望能帮助研究人员快速抓住MLLM的基本思想、主流方法和当前进展。需要说明的是，我们主要聚焦于视觉和语言模态，但也会涵盖视频、音频等其他模态的工作。具体而言，我们对MLLM最重要的方面进行了总结，并附带了一个会持续更新的GitHub页面。据我们所知，这应该是关于MLLM的第一篇系统性综述。整篇文章的结构是这样的：首先全面回顾MLLM的基本面，包括主流架构（第2章）、完整的训练策略与数据配方（第3章），以及常见的性能评估方法（第4章）。之后，我们会深入探讨几个重要主题，每个主题都围绕一个核心问题展开：比如，MLLM还有哪些方向可以继续扩展（第5章）？如何缓解多模态幻觉（第6章）？接着，综述重点介绍了三种关键技术（第7章），每种技术都有其典型的应用场景：M-ICL常用于推理阶段，能有效提升少样本性能；M-CoT则主要用于处理复杂的推理任务。最后，我们会聊一聊如何用基于LLM的系统来应对复合推理任务或普通用户的常见查询（第7.3节），并以总结和未来方向的展望收尾。 2 架构一个典型的多模态大语言模型（MLLM）可以拆解为三大模块：预训练的模态编码器、预训练的大型语言模型（LLM），以及连接两者的模态接口。打个形象的比方，模态编码器（如图像/音频编码器）就像我们的眼睛和耳朵，负责接收和预处理光学/声学信号；而LLM就像人的大脑，去理解和推理这些经过处理的信号。模态接口则负责把不同模态的信号对齐起来。有些MLLM还自带一个生成器，用于输出文本以外的其他模态内容。图2画的就是这个架构的示意。下面我们依次介绍每个模块。 2.1 模态编码器编码器负责把原始信息（比如图片或音频）压缩成更紧凑的表示形式。比起从零开始训练，更常见的做法是直接使用一个已经与其他模态对齐好的预训练编码器。举个例子，CLIP通过在大量图像-文本对上做大规模预训练，把视觉编码器跟文本在语义上对齐了。因此，用这种本身就对齐好的编码器，再去跟LLM做对齐预训练（见第3.1节）就会省事很多。表1总结了常用的图像编码器系列。除了普通的CLIP图像编码器，一些工作也尝试了其他变体。比如MiniGPT-4用的是通过改进训练技术得到的EVA-CLIP（ViT-G/14）编码器；而Osprey则引入了基于卷积的ConvNext-L编码器，以利用更高分辨率和多级特征。还有一些工作干脆探索了无编码器架构，比如Fuyu-8b直接把图像补丁投影后送到LLM，这样模型就能自然地支持灵活的分辨率输入了。 2.2 预训练LLM 与其从头训练一个LLM，更高效也更实际的做法是从一个预训练模型开始。LLM已经在海量网络语料上完成了预训练，嵌入了丰富的世界知识，并展现出强大的泛化和推理能力。我们在表2中总结了常用的、公开可用的LLM。值得注意的是，大多数LLM都属于因果解码器类别，沿用的是GPT-3的路线。在这些LLM中，FlanT5系列是最早被BLIP-2和InstructBLIP等工作采用的。而LLaMA系列和Vicuna家族则是吸引了大量学术关注的开源代表。不过，这两个LLM主要是在英语语料上预训练的，所以在多语言支持上有些力不从心，尤其是对中文。相比之下，Qwen是一个同时支持中文和英文的双语LLM。有意思的是，增加LLM的参数量（就像提高输入分辨率一样）能带来额外的增益。有研究发现，把LLM从7B扩展到13B，能在各种基准测试上带来全面提升；当用到34B的LLM时，模型甚至能展现出零样本的中文能力，即使训练时只用到了英文多模态数据。另一项研究通过把LLM从13B扩展到35B乃至65B/70B，发现更大的模型规模在为MLLM专门设计的基准测试上带来了持续的增益。当然，也有工作使用较小的LLM来推动移动端的部署，比如MobileVLM系列就用的是缩小版的LLaMA（1.4B/2.7B），能在移动处理器上实现高效推理。最近，对专家混合（MoE）架构的探索也开始升温。跟密集模型相比，稀疏架构通过选择性激活参数，能在不增加计算成本的前提下扩大总参数量。实际上，MM1和MoE-LLaVA都证实，MoE实现在几乎所有的基准测试上都比密集版本的模型表现更好。 2.3 模态接口因为LLM只能理解文本，所以我们需要在自然语言和其他模态之间架起一座桥梁。不过，以端到端方式训练一个大型多模态模型成本太高了。更实际的做法，是在预训练的视觉编码器和LLM之间插入一个可学习的连接器。另一种思路是利用专家模型（如图像字幕模型）把多模态输入先转成语言，再送到LLM。 **可学习的连接器**负责在不同模态之间搭桥。具体来说，这个模块要把信息投影到LLM能够有效理解的空间里去。根据多模态信息的融合方式，大致有两种实现方法：基于令牌级别的融合和基于特征级别的融合。基于令牌级别的融合，指的是把编码器输出的特征先转成令牌，然后跟文本令牌拼接起来一起送入LLM。一个常见且有效的方案是利用一组可学习的查询令牌，以基于查询的方式提取信息——这个思路最早在BLIP-2中间出现，后来被很多工作继承。这种Q-Former风格的方法能把视觉令牌压缩成少量的表示向量。相比之下，有些方法就简单直接多了，用基于MLP的接口来弥合模态差距。比如LLaVA系列就用一个或两个线性MLP来投影视觉令牌，把特征维度跟词嵌入对齐。顺便提一下，MM1对连接器的设计选择做了消融研究，发现对于令牌级别的融合来说，模态适配器的类型远没有视觉令牌数量和输入分辨率那么重要。尽管如此，有研究比较了基于令牌和基于特征的融合性能，发现基于令牌的变体在VQA基准测试中表现更好。对于这种差距，作者认为交叉注意力模型可能需要更复杂的超参数搜索才能达到可比性能。另一条路线是基于特征级别的融合，它通过插入额外的模块，让文本和视觉特征之间发生更深入的交互和融合。比如Flamingo在LLM的冻结Transformer层之间插入了额外的交叉注意力层，用外部视觉线索来增强语言特征。类似地，CogVLM则在每个Transformer层里插入了一个视觉专家模块，实现视觉和语言特征的双向交互和融合。为了获得更好的性能，这些新模块的QKV权重矩阵通常是从预训练好的LLM初始化的。此外，LLaMA-Adapter在Transformer层里引入了可学习的提示，这些提示先嵌入了视觉知识，再作为前缀连接到文本特征上。在参数量上，可学习接口通常只占编码器和LLM的一小部分。以Qwen-VL为例，Q-Former的参数只有约0.08B，不到总参数的1%，而编码器和LLM分别占了约19.8%（1.9B）和80.2%（7.7B）。 **专家模型**。除了可学习接口，使用专家模型（如图像字幕模型）也是弥合模态差距的一种可行方法。其核心思想是不经过训练，直接把多模态输入转换成语言。这样一来，LLM就能通过转换后的语言来理解多模态信息了。比如VideoChat-Text会用预训练的视觉模型提取视觉信息（如动作），再用语音识别模型丰富描述。虽然用专家模型很简单，但它的灵活性显然不如可学习接口。把多模态信息转成文本，不可避免地会丢失一些信息——比如把视频转成文字描述，就很容易扭曲掉空间和时间关系。 3 训练策略和数据一个完整的多模态大语言模型（MLLM）通常要经过三个训练阶段：预训练、指令调整和对齐调整。每个阶段需要不同类型的数据，也对应着不同的目标。本节我们就来聊一聊训练目标、数据收集以及各自的特点。 3.1 预训练预训练是整个训练流程的第一阶段，主要目标是让不同模态对齐起来，并学习多模态的世界知识。这个阶段通常需要大规模的文本配对数据，比如字幕数据。我们以常见的视觉-文本对齐场景为例。如表3所示，给定一张图片，模型被训练来自回归地预测这张图片的字幕，遵循标准的交叉熵损失。常见的做法是冻结预训练好的模块（比如视觉编码器和LLM），只训练一个可学习的接口。这样做的初衷，是在对齐不同模态的同时，避免损失掉预训练阶段已经学到的知识。当然，也有些方法选择解冻更多模块（比如视觉编码器），以便提供更多的可训练参数用于对齐。需要注意的是，训练方案跟数据质量密切相关。对于简短且嘈杂的字幕数据，可以用较低的分辨率（比如224）来加速训练；而对于更长、更干净的数据，则最好用更高的分辨率（比如448或以上）来减少幻觉。此外，ShareGPT4V发现，在预训练阶段使用高质量的字幕数据，并解锁视觉编码器，有助于实现更好的对齐。 3.1.1 训练细节作为第一阶段，预训练的核心就是对齐模态和学习世界知识。它通常涉及大规模的文本配对数据——这些字幕对以自然语言句子描述图像、音频或视频。这里我们以常见的视觉-文本对齐为例。如图3所示，给定一张图像，模型的训练目标就是自回归地预测图像的字幕，同样遵循标准的交叉熵损失。常见做法是冻结预训练模块（视觉编码器和LLM），只训练一个可学习接口。这个巧思在于，对齐不同模态的同时保住预训练的知识不流失。一些方法也会解冻更多模块（比如视觉编码器）来增加可训练参数。如前所述，训练方案跟数据质量密切相关。对于短而嘈杂的字幕，可以用较低分辨率加速；对于更长更干净的数据，用高分辨率更能减少幻觉。而且，当使用高质量字幕数据时，解锁视觉编码器能带来更好的对齐效果。 3.1.2 数据预训练数据主要有两个目的：一是对齐不同模态，二是提供世界知识。根据粒度，我们可以把预训练语料分为粗粒度和细粒度两类。表4总结了常用的预训练数据集。粗粒度字幕数据有一些共同特点：首先，数据量非常大，因为它们通常都来自互联网；其次，由于从网络爬取的特征，字幕往往又短又嘈杂（比如来自网络图片的alt文本）。这些数据可以通过自动工具进行清洗和过滤，比如用CLIP模型筛掉那些相似度低于预设阈值的图像-文本对。接下来介绍几个有代表性的粗粒度数据集。 - **CC**。CC-3M是一个包含330万图像-字幕对的网络规模数据集，原始描述来自与图片关联的alt文本。作者设计了一套复杂的数据清洗流程：对图像，过滤掉包含不当内容或比例不当的；对文本，用NLP工具获取注解，再根据设计好的启发式规则过滤；对图像-文本对，用分类器给图像打标签，如果文本注解跟图像标签对不上，就删除这对样本。CC-12M是CC-3M的后续，包含1240万图像-字幕对，它放宽了数据收集流程，因此数据量更大。 - **SBU字幕**。这是一个包含100万图像-文本对的带字幕照片数据集，图片和描述都来自Flickr。具体来说，先用大量查询词在Flickr上搜到初始图集，然后为了保证描述跟图像相关，只保留那些描述长度合格、并且至少包含两个预定义词汇表中的词和空间关系命题词（如“on”、“under”）的图像。 3.2 指令调整 3.2.1 介绍所谓指令，就是任务的描述。通俗点说，指令调整的目的就是让模型学会更好地理解用户的指令，并按要求完成任务。经过这种调整后，LLM就能通过遵循新指令来泛化到从未见过的任务，从而提升零样本性能。这个简单但效果极好的想法，直接催生了ChatGPT、InstructGPT、FLAN和OPT-IML等一批成功的NLP作品。图3展示了指令调整与典型学习范式的区别。传统的监督微调方法需要大量特定任务的数据来训练一个只会干某件事的模型。而提示方法减少了对大规模数据的依赖，可以通过提示工程完成特定任务，但零样本性能仍然比较平庸。指令调整则不同，它学的是如何泛化到没见过的新任务，而不是死磕某个具体任务。而且，指令调整跟多任务提示密切相关。在本节中，我们会介绍指令样本的格式、训练目标、收集指令数据的典型方法以及常用的数据集。 3.2.2 训练细节多模态指令样本通常包含一个可选的指令和一组输入-输出对。指令一般是对任务的描述，比如“详细描述这张图像。”输入可以是VQA任务那样的图像-文本对，也可以是单张图像（如图像字幕任务）。输出则是根据指令对输入给出的答案。指令模板非常灵活，可以手动设计，也可以根据不同任务变化，就像表5展示的那样。注意，这些模板还能推广到多轮对话的场景。正式来说，一个多模态指令样本可以用三元组(I, M, R)表示，其中I、M、R分别代表指令、多模态输入和真实响应。MLLM的参数θ需要学习如何根据给定的指令和多模态输入来预测答案A。训练目标通常就是LLM原本的自回归目标，模型被鼓励去预测响应的下一个词。用公式表达就是：最大化真实响应长度N下的预测概率。 3.2.3 数据收集由于指令数据的格式更灵活，任务表述也更多样，所以收集起来往往更棘手、成本更高。这里我们总结三种典型的大规模收集方法：数据适应、自我指令和数据混合。 - **数据适应**。特定任务的数据集是高质量数据的宝库。因此，大量工作利用现有的高质量数据集构建了指令格式化数据。以VQA数据集为例，原始的样本就是一个输入-输出对，输入包含图像和问题，输出是答案。这些现成的输入-输出对可以很自然地构成指令样本中的多模态输入和响应。而指令本身，既可以由人来手动设计，也可以通过GPT半自动生成。有些工作会事先做一组候选指令，训练时随机采样一个；另一些则先手动设计几个种子指令，然后用这些指令提示GPT生成更多指令。需要注意的是，由于现有VQA和字幕数据集的答案通常很简短，直接拿来做指令调整可能会限制MLLM的输出长度。针对这个问题有两种常见对策：一是在指令里明确说明（比如要求“简短简洁”或“完整句子”）；二是通过提示ChatGPT来扩展现有答案的长度，比如补充图像的上文信息（字幕、OCR等）。 - **数据质量**。最近的研究揭示了一个关键事实：指令调整样本的质量跟数量一样重要。有研究发现，在大规模但嘈杂的图像-文本对上预训练出来的模型，并不比在更小但更干净的数据集上训练的表现更好。同样，少而精的指令调整数据往往能实现更优的性能。对于数据过滤，研究者提出了一些评估数据质量的指标，并设计了一种自动过滤低质量视觉-语言数据的方法。这里我们重点讨论两个质量维度： - **提示多样性**。指令的多样性对模型性能至关重要。有实证研究证实，多样化的提示有助于提高模型的性能和泛化能力。 - **任务覆盖范围**。在训练数据涉及的任务方面，有研究发现视觉推理任务对模型性能的提升效果比字幕和QA任务更明显。而且，研究还建议，提高指令的复杂性可能比增加任务多样性和纳入细粒度空间注释更有好处。 3.3 对齐调整 3.3.1 介绍对齐调整通常用在需要把模型跟特定人类偏好对齐的场景中，比如减少幻觉响应。目前，基于人类反馈的强化学习（RLHF）和直接偏好优化（DPO）是两种主流技术。本节我们依次介绍这两种技术的主要内容，给出一些实际应用的例子，并汇总相关的数据集。 3.3.2 训练细节 **RLHF**。这项技术利用强化学习算法将LLM与人类偏好对齐，训练过程中用人类注释作为监督信号。如InstructGPT所示，RLHF包含三个关键步骤： 1. **监督微调**。这一步的目标是微调预训练模型，让它表现出预期的输出行为。在RLHF设置中，微调后的模型被称为策略模型。注意，如果已经有指令调整模型作为初始化，这一步可以跳过。 2. **奖励建模**。在这个步骤中，使用偏好对来训练一个奖励模型。给定多模态提示和一对响应（一个偏好、一个不偏好），奖励模型学会给更受欢迎的响应打更高的分，反之则打低分。 3. **强化学习**。采用近端策略优化（PPO）算法来优化RL策略模型。为了防止偏离原始策略太远，通常在训练目标里加上每个词元的KL惩罚。通过这一调整，得到的策略模型就能更好地跟人类偏好对齐。研究人员已经尝试用RLHF技术来实现更好的多模态对齐。比如LLaVA-RLHF收集了人类偏好数据，并对基于LLaVA的模型进行了调整，有效减少了幻觉。 **DPO**。它使用人类偏好标签，通过一个简单的二元分类损失来学习。跟基于PPO的RLHF相比，DPO不需要显式学习奖励模型，从而把整个流程简化为两步：收集人类偏好数据，然后进行偏好学习。RLHF-V通过片段的幻觉纠正收集了细粒度的偏好数据对，然后用这些数据执行密集的DPO。而Silkie则通过提示GPT-4V来收集偏好数据，再通过DPO把偏好监督蒸馏到经过指令调整的模型中。 3.3.3 数据对齐调整的数据收集要点，是收集模型响应的反馈——也就是判断哪个响应更好。通常，收集这类数据的成本更高，所以这个阶段用到的数据量往往也远少于前几个阶段。我们整理了一些代表性数据集，如表8所示： - **LLaVA-RLHF**：包含1万个由人类反馈收集的偏好对，主要评估诚实度和帮助程度，专门用于减少模型响应中的幻觉。 - **RLHF-V**：有5700个细粒度的人类反馈数据，通过片段级别的幻觉纠正收集。 - **VLFeedback**：利用AI为模型响应提供反馈，包含超过38万个比较对，由GPT-4V根据帮助性、忠实度和道德考量进行评分。 4 评估评估是开发MLLM的关键环节，它为模型优化提供了反馈，也帮助我们比较不同模型的性能。跟传统多模态模型的评估方法相比，MLLM的评估呈现出几个新特点：第一，因为MLLM通常功能全面，所以需要一个全面的评估体系；第二，MLLM展现出许多新兴能力（比如无OCR的数学推理），需要有对应的新评估方案。MLLM的评估大致可以分为封闭集和开放集两种类型。 4.1 封闭集封闭集问题指的是那些答案选项是预设好的、被限制在一个有限集合里的问题类型。评估通常在特定任务的数据集上进行，通过基准指标来判断响应质量。评估设置通常有零样本和微调两种。第一种设置一般会挑选一批覆盖不同通用任务的数据集，把它们分成保留和非保留两部分，在保留集上调整后，在非保留集上（用未见过的数据集甚至任务）评估零样本性能。第二种设置则更多出现在评估特定领域任务时，比如在ScienceQA上报告微调性能。由于上述方法常常只限于少数选定的任务或数据集，缺乏全面的定量比较，所以一些工作专门为MLLM设计了新的基准测试。例如，MME构建了一个包含14个感知和认知任务的评估基准，所有指令-答案对都是手动设计的，避免数据泄露。MMBench则是一个专门多维度评估模型能力的基准，用ChatGPT把开放响应跟预设的选择做匹配。而Video-ChatGPT和Video-Bench则聚焦视频领域，推出了专门的基准和评估工具。还有一些评估策略专门用来评估模型的特定方面，比如用POPE来评估幻觉程度。 4.2 开放集跟封闭集不同，开放集问题的回答要灵活得多，MLLM在这里扮演的是聊天机器人的角色。由于聊天内容可以五花八门，所以评判起来比封闭集输出难多了。评估标准大致可以分为手动评分、GPT评分和案例研究。 - **手动评分**。需要人工来评估生成的响应，通常会涉及手工设计的问题来评估特定维度。比如mPLUG-Owl收集了与视觉相关的评估集，用来判断自然图像理解、图表和流程图理解等能力。GPT4Tools则构建了两套评估集，分别用于微调和零样本性能评估，从思路、行动、论证和整体四个角度评价响应。 - **GPT评分**。因为手动评估太费时费力，研究者开始探索用GPT来打分。这种方法通常用在评估多模态对话的性能上。LLaVA率先提出通过文本GPT-4对响应进行评分，评估帮助性和准确性等。他们把COCO验证集中抽取30张图像，每张图配一个简短问题、一个详细问题和一个复杂推理问题，然后让GPT-4和模型分别作答，再发给GPT-4比较。后续很多工作都沿用了这个思路，用ChatGPT或GPT-4来评分或判断哪个回答更好。不过，用文本GPT-4作为评估器有一个致命缺陷——评估器只能看到跟图像相关的文本内容（如字幕或边框坐标），看不到图像本身。所以在这种设置下把GPT-4当作性能上限是值得怀疑的。随着GPT-4V的发布，一些工作开始利用这个更先进的视觉模型来评估MLLM性能。比如Woodpecker就用GPT-4V来根据图像判断模型答案的质量，由于能够直接访问图像，评估结果理论上比文本GPT-4更准确。 - **案例研究**。另一种补充方法是通过案例研究来比较MLLM的不同能力。比如有些研究对GPT-4V和Gemini这两个商业模型做了深入定性分析，从基本技能（如字幕和计数）到需要世界知识和推理的复杂任务（如笑话理解和室内导航），全面评估了GPT-4V的能力。还有人专门针对自动驾驶场景设计了样本，对GPT-4V做了更聚焦的评估。对Gemini-Pro的全面评估也显示，尽管GPT-4V和Gemini响应风格不同，但视觉推理能力不相上下。 5 扩展近期研究在扩展MLLM能力方面取得了显著进展，从更强大的基础能力到更广泛的场景覆盖都有涉及。下面我们追踪几个主要方向。 - **粒度支持**。为了让人机交互更顺畅，研究者开发了支持更细粒度输入和输出的MLLM。输入方面，从整张图像逐步发展到区域、甚至像素级。比如Shikra支持区域级输入和理解，用户可以用自然语言形式的边界框指向特定区域。Ferret更进一步，设计了一种混合表示方案，支持点、框和草图等多种形式的提示。Osprey借助预训练分割模型，支持通过点选来指定单个实体或其部分。输出方面，随着输入支持的完善，接地能力也得到了提升。Shikra能在响应中用框注释来支撑答案，LISA则进一步支持掩码级理解和推理，实现了像素级的接地。 - **模态支持**。增加对多种模态的支持是MLLM发展的明显趋势。一方面是让MLLM能接收更多种多模态内容作为输入，比如3D点云；另一方面，也让MLLM学会生成更多模态的响应，比如图像、音频和视频。NExT-GPT提出了一个框架，借助附加的扩散模型，能够组合处理文本、图像、音频和视频的混合模态输入和输出。这个框架采用编码器-解码器架构，把LLM作为理解和推理的核心。 - **语言支持**。当前的模型主要还是单语的，很大原因是高质量的非英语训练语料稀缺。一些工作致力于开发多语言模型，以覆盖更广泛的用户群。VisCPM通过设计多阶段训练方案，把模型能力迁移到多语言环境。具体来说，它用英语作为关键语言，借助预训练的双语LLM，在指令调整时加入一些翻译样本，就把多模态能力转移到了中文上。Qwen-VL走的是类似路线，从双语的Qwen LLM开发而来，预训练阶段就把中文数据混合到语料库里（占比约22.7%），以保持模型的双语能力。 - **场景/任务扩展**。除了开发通用助手，一些研究把目光投向了更具体的场景和下游任务。一个典型趋势是把MLLM适配到更贴近现实的应用中，比如MobileVLM探索开发小尺寸变体，用更小的LLM和量化技术来加速计算，以便部署在移动设备上。另一类工作则开发了能跟现实世界交互的智能体，比如专门为GUI设计的CogAgent、AppAgent和Mobile-Agent。这些助手擅长规划和指导用户完成任务，是人机交互中的得力助手。还有一条线是把MLLM扩展到医学领域，比如LLaVA-Med通过注入医学知识，把普通的LLaVA变成了一个专门用于医学图像理解和问答的助手。 6 多模态幻觉多模态幻觉指的是MLLM生成的响应与图像内容不一致的现象。作为基本且重要的问题，它已经引起了越来越多的关注。本节我们先介绍一些相关概念和研究发展。 6.1 初步知识当前关于多模态幻觉的研究可以大致分为三种类型： 1. **存在幻觉**：最基础的形式，模型错误地声称图像中存在某些对象。 2. **属性幻觉**：以错误的方式描述对象的属性，比如无法正确识别狗的颜色。它通常跟存在幻觉相关联，因为属性的描述应该基于图像中真实存在的对象。 3. **关系幻觉**：更复杂的一类，同样基于对象的存在，指的是错误地描述对象之间的关系，如相对位置和交互。接下来，我们先介绍一些特定的评估方法，这些方法对衡量减轻幻觉的手段的效果很有用，然后再详细讨论当前减少幻觉的各种方法。 6.2 评估方法 - **CHAIR**：一个早期指标，用于评估开放式字幕中的幻觉水平。它测量的是句子中间出现幻觉对象的比例，或者所有提到对象中幻觉对象所占的比例。 - **POPE**：一种封闭集选择的评估方法。它设计多个带二元选项的提示，每个提示询问图像中是否存在某个特定对象。该方法还包含更有挑战性的设置来评估模型鲁棒性。最终评估通过简单的关键词机制（检测“是/否”），把开放式响应转成封闭集二元选择。 - **MME**：采用类似的评估思路，但评估更全面，涵盖了存在、计数、位置和颜色等方面。 - **HaELM**：提出用文本LLM作为裁判，自动判断模型字幕是否跟参考字幕一致。但它只能访问有限的图像上下文，而且需要参考注释。 - **Woodpecker**：使用GPT-4V直接评估基于图像的模型响应。 - **FaithScore**：一种基于例程的更细粒度指标，把描述性子句拆开，逐一评估。 - **AMBER**：不依赖LLM的基准，包含判别性和生成性任务，覆盖了三种可能的幻觉类型。 6.3 减轻方法根据高层思路，当前的方法大致可以分为三类： - **预先校正**。一个直观直接的思路是收集专门数据（比如反面数据）来微调模型，从而产出幻觉更少的响应。LRV-Instruction引入了一个视觉指令调整数据集，除了常见的正面指令，还加入了在不同语义级别精心设计的反面指令，鼓励模型生成忠实于图像内容的响应。LLaVA-RLHF则收集了人类偏好对，用强化学习对模型进行微调，让模型更倾向于给出幻觉较少的答案。 - **过程中校正**。另一条路是从架构设计或特征表示入手，尝试探索幻觉产生的原因，并设计相应的补救措施，在生成过程中就减轻幻觉。HallE-Switch对可能导致对象存在幻觉的因素做了实证分析，发现幻觉源于视觉编码器没有接地的对象——实际上它们是基于LLM中嵌入的知识推断出来的。基于这个假设，他们引入了一个连续的控制因素和训练方案，来控制模型推理时的“想象”程度。VCD认为对象幻觉源于训练语料中的统计偏差和LLM强大的语言先验。他们发现，当给图像注入噪声时，MLLM倾向于依赖语言先验而不是图像内容来生成响应，从而导致幻觉。于是设计了一个“放大-对比”的解码方案来抵消错误偏差。HACL则研究了视觉和语言的嵌入空间，设计了一种对比学习方案，把成对的跨模态表示拉近，同时把非幻觉和幻觉的文本表示推开。 - **事后校正**。跟前面的范式不同，事后校正是在输出生成后再来纠正幻觉，是一种事后补救的方式。Woodpecker是一个无需训练的通用幻觉校正框架。它结合了专家模型来补充图像上下文信息，构建了一个逐步纠正幻觉的流程。这个方法可解释性强，因为每个步骤的中间结果都可以被检查，对象在图像中也是可接地的。另一种方法LURE训练了一个专门的校正器，把描述中不确定性很高的对象掩盖掉，然后重新生成响应。 7 扩展技术 7.1 多模态上下文学习 (M-ICL) 上下文学习（ICL）是LLM的重要涌现能力之一。它有两个主要优点：第一，跟传统监督学习不同，ICL的核心理念是通过类比学习——LLM通过一些示例（加上可选的指令）来学习，并外推到新问题，从而以少样本方式解决复杂和未见过的任务。第二，ICL通常以无需训练的方式实现，所以可以很灵活地集成到不同框架中，在推理阶段使用。跟ICL密切相关的技术是指令调整，实证表明指令调整可以增强ICL能力。在MLLM的背景下，ICL已经扩展到更多模态，形成了多模态上下文学习（M-ICL）。在推理时，M-ICL可以通过添加一组上下文示例来实现。需要注意的是，示例的数量和顺序可以灵活调整，但模型通常对示例的排列很敏感。 7.1.1 提高ICL能力越来越多的研究集中在提高各种场景下的ICL性能。MIMIC-IT通过构建具有多模态上下文的指令数据集，把上下文学习和指令调整结合起来。在这种数据集上进行指令调整的模型，在字幕任务上显示出改进的少样本性能。Emu则扩展了Flamingo的思路，引入额外的模态到模型生成和相应的训练语料中，借助视觉解码器让模型从额外的视觉监督中学习，支持更灵活的输出格式和上下文推理。Sheng等人采取类似思路，但没有用专门的图像编码器，而是用了统一的量化方案和共享的嵌入层。还有一些工作探索了在特定设置下提高少样本学习性能。Link-context学习专注于加强图像-标签对之间的因果关系，通过制定正负面的图像-描述对来构建对比训练方案。MMIICL旨在增强使用多个相关图像进行推理的能力，通过上下文方案把交错的图像-文本数据转换成统一格式。另有研究者发现，当插入一小部分不连贯的图像或文本作为噪声时，MLLM可能会被误导，给出跟上下文不一致的响应。基于这个观察，他们提出了一种预过滤方法，用于去除不相关的上下文，促进更连贯的响应。 7.1.2 应用在多模态应用方面，M-ICL主要用于两个场景：一是解决各种视觉推理任务，二是教LLM使用外部工具。前者通常从一些特定任务的示例中学习，然后推广到一个新的但相似的问题。后者则粒度更细，通常包含可以顺序执行的步骤，因此跟思维链密切相关。 7.2 多模态思维链 (M-CoT) 正如开创性工作所指出的，思维链是“一系列中间推理步骤”，已被证明在复杂推理任务中非常有效。其核心思想是提示LLM不仅输出最终答案，还要输出导致这个答案的推理过程，就像人的认知过程一样。受到NLP中成功的启发，多项工作提出把单模态思维链扩展到多模态思维链（M-CoT）。我们先介绍获取M-CoT能力的不同学习范式，然后更详细地描述其具体方面，包括链配置和生成模式。 7.2.1 学习范式获取M-CoT能力大致有三种方式：微调、少样本学习和零样本学习，三者对样本大小的要求依次降低。微调方法通常涉及为M-CoT学习策划特定数据集。比如有研究构建了一个科学问答数据集，包含讲座和解释，可以作为学习思维链推理的来源。Multimodal-CoT也使用同样的基准，但以两步方式生成输出：先基于推理步骤生成解释（也就是思维链），再生成最终答案。CoT-PT则通过结合提示调整和步骤特定的视觉偏见来学习隐式思维链。跟微调相比，少/零样本学习在计算上更高效。少样本学习通常需要手工制作一些上下文示例，让模型更容易学会逐步推理；而零样本学习不需要任何特定示例，模型直接用设计好的指令（比如“让我们一步步思考”）来嵌入知识和推理能力。类似地，一些工作通过任务描述和工具使用来提示模型，把复杂任务分解为子任务。 7.2.2 链配置结构和长度是推理链的两个关键方面。结构方面，当前方法可以分为单链和树形方法。单链推理是广泛使用的范式，逐步推理过程形成一个单一的问题-理由-答案链。而树形方法则更复杂，比如DDCoT把一个问题分解成多个子问题，每个子问题都由LLM或视觉专家解决以生成理由，然后LLM聚合和推理这些理由以形成最终答案。关于链长度，可以分为自适应和预定义两种。自适应配置要求LLM自行决定何时停止推理链，而预定义配置则在预设长度停止。 7.2.3 生成模式如何构建推理链也是一个值得探究的问题。当前的工作主要有两种模式：基于填充的模式和基于预测的模式。基于填充的模式要求在周围的上下文中（之前和之后的步骤之间）推断步骤，以填补逻辑空白。基于预测的模式则要求在给定条件（如指令和先前推理历史）的情况下，不断扩展推理链。两种模式都要求生成的步骤一致且正确。 7.3 LLM辅助视觉推理 7.3.1 介绍受工具增强型LLM成功的启发，一些研究者开始探索调用外部工具或视觉基础模型来执行视觉推理任务的可能性。这些工作以LLM作为助手，构建了特定任务或通用的视觉推理系统。跟传统视觉推理模型相比，它们有三大优势： 1. **强大的泛化能力**：配备从大规模预训练中学到的开放世界知识，能轻松泛化到未见过的物体或概念，零样本/少样本性能显著。 2. **涌现能力**：借助LLM强大的推理能力，可以执行复杂任务，比如解释一个梗图为什么好笑。 3. **更好的交互性和控制**：支持用户友好界面（如点击和自然语言查询）进行精细控制。接下来，我们介绍构建这类系统时使用的不同训练范式，再深入探讨LLM在其中扮演的主要角色。 7.3.2 训练范式根据训练范式，LLM辅助视觉推理系统可以分为无需训练和微调两种。 - **无需训练**：由于预训练的LLM中已经储存了丰富的先验知识，一个直观且简单的方法是冻结预训练模型，直接提示LLM来满足各种需求。根据设置，可以进一步分为少样本模型和零样本模型。少样本模型需要一些手工制作的上下文示例来指导LLM生成程序或执行步骤，这些程序再作为外部工具或模块的指令。零样本模型则更进一步，直接利用LLM的语言/语义知识或推理能力。 - **微调**：有些工作采用进一步微调来提高规划能力或目标定位能力。比如GPT4Tools引入了指令调整方法，并收集了新的与工具相关的指令数据集来微调模型。 7.3.3 功能为了进一步理清LLM在视觉推理系统中扮演的确切角色，我们把相关工作分为三种类型：LLM作为控制器、LLM作为决策者和LLM作为语义细化器。前两个角色跟思维链相关，因为复杂任务需要被分解为中间步骤。当LLM作为控制器时，系统通常在一轮内完成任务；而决策者的情况则更多是多轮交互。 - **LLM作为控制器**：LLM充当中央控制器，负责把复杂任务分解为更简单的子任务/步骤，再把任务分配给适当的工具/模块。第一步通常通过利用LLM的思维链能力完成——LLM被明确提示输出任务规划或直接调用模块。为了处理这些复杂要求，一些手工制作的上下文示例被用作参考。 - **LLM作为决策者**：复杂任务通过多轮方式解决，通常以迭代进行。决策者的职责包括：总结当前上下文和历史信息，判断现有信息是否足以回答问题；组织并总结答案，以用户友好的方式呈现。 - **LLM作为语义细化器**：当LLM被用作语义细化器时，研究者主要利用其丰富的语言和语义知识。LLM通常被指示将信息整合成一致、流畅的自然语言句子，或根据不同的具体需求生成文本。 8 挑战与未来方向 MLLM的发展仍处于初级阶段，因此还有很大的改进空间。我们总结如下： - 当前的MLLM在处理长上下文的多模态信息方面存在明显限制。这限制了具有更多多模态令牌的高级模型的发展，比如长视频理解、以及图像和文本交错的长文档处理。 - MLLM需要升级，以遵循更复杂的指令。例如，生成高质量的问答对数据，目前主流方法还是提示封闭源的GPT-4V，因为它的指令跟随能力远胜于其他模型。 - 在M-ICL和M-CoT等技术上仍有改进空间。目前对这两项技术的研究还在初期，MLLM的相应能力还比较弱。探索其背后的机制和潜在改进，是一个很有前景的方向。 - 基于MLLM的具身智能体开发正在成为热门话题。开发能够跟现实世界互动的智能体，需要模型同时具备感知、推理、规划和执行等关键能力，这是个很有意义的课题。 - 安全问题。跟LLM类似，MLLM也可能容易受到精心制作的攻击，被误导生成有偏见或不理想的响应。因此，提高模型的安全性将是一个重要课题。 9 结论本文对现有的MLLM文献进行了一次全面的回顾，从基本方案到相关扩展，提供了一个宽视角的梳理。同时，我们指出了当前研究中的空白，并展望了几个有希望的研究方向。希望这篇综述能为读者呈现MLLM当前进展的清晰图景，并激发更多的后续工作。 **参考资料** 标题：A Survey on Multimodal Large Language Models 作者：Shukang Yin, Chaoyou Fu, Sirui Zhao, Ke Li, Xing Sun, Tong Xu, Enhong Chen 单位：中国科学技术大学数据科学系；腾讯优图实验室链接：https://arxiv.org/abs/2306.13549v2

多模态大语言模型全面综述：架构、训练、数据、评估、扩展、应用、挑战与机遇

相关热点

延伸阅读