今天最大的行业热点,莫过于斯坦福Llama3-V与清华MiniCPM-Llama3-V-2.5之间的正面交锋。详细的对比证据和讨论,可以查阅以下GitHub议题:

https://github.com/OpenBMB/MiniCPM-V/issues/196
先别急着围观,在吃瓜之余,我们不妨深入探讨一下多模态大模型架构的真正演变趋势。这背后有一篇内容扎实的学术论文,系统梳理了当前主流的多模态架构,并提出了一套清晰的四类分类方法,同时还剖析了从单一模态模型到任意到任意模态模型的演进路径。简单来说,这篇文章已经把各种模型的“骨架”彻底摸透了。
综合分类法
这篇论文的核心贡献之一,是呈现了一幅按四种架构类型进行分组的模型发展时间线。通俗地讲,就是把目前存在的所有多模态模型,都归入了四个大类。这样做的重要意义在于:当我们面对新的任务或特定需求时,能够快速判断应该朝哪个方向发力,而无需在数百种模型中漫无目的地摸索。

接下来具体看看这四种类型:
首先是深度融合路线,包含类型A和类型B。这两种架构的共同点是在模型内部的层中对多模态输入进行融合,区别在于:类型A采用标准的交叉注意力机制,实现简单直接,但计算量较大;类型B则更为复杂,可能会设计专门的交叉注意力层或其他定制层,目标是在效率与效果之间取得更好的平衡。
其次是早期融合路线,涵盖类型C和类型D。这两种架构在输入阶段就完成了模态融合,但具体做法不同:类型C是非标记化的方式,直接将模态数据通过线性层、MLP或Q-former等模块送入大语言模型(LLM);而类型D则先将输入转化为离散标记,再利用变换器架构进行处理——这相当于把图像、音频等数据都“翻译”成类似文字的token,再统一交给模型。
比较分析
每一类架构都有其适用的场景和自身的局限性,下面进行详细分析。
类型A:标准交叉注意力深度融合
该架构使用标准的交叉注意力层,通常插入在自注意力层之前或之后。模态特定的编码器先对输入进行处理,然后通过重采样器输出固定数量的token,再将其馈送给LLM。这类模型的代表数量较多,其优点是结构简洁、易于理解,但缺点是计算开销较大,尤其是当输入模态数量增多时,整个注意力矩阵会变得极其庞大。

类型B:自定义层深度融合
该架构采用定制设计的交叉注意力层或其他专用层进行深度融合。线性层、MLP、Q-former等模块都可以用来对齐不同模态与LLM的表示空间。这类架构的优势在于灵活性高,可以根据具体任务设计个性化的融合策略,但缺点则是设计过程复杂,需要进行大量的实验和参数调优。

类型C:非标记化早期融合
该架构直接借助线性层、MLP或Q-former等模块,将模态编码器的输出连接到LLM的输入端,不进行标记化处理。它的优点是输入处理简单直接,但缺点也同样明显:如果不同模态的数据分布差异较大,早期融合容易导致模型“顾此失彼”,难以兼顾所有模态的特征。

类型D:标记化早期融合
该架构与类型C类似,但增加了标记化这一步。所有输入都被统一转化为离散标记,然后送入变换器(可以是编码器-解码器结构,也可以是纯解码器结构)。这种做法的好处是让不同模态的数据进入同一个“语言”系统,便于模型进行统一处理;但标记化过程本身可能会丢失部分信息,尤其是对于音频、图像等连续模态,细节损失在所难免。

任意到任意模态模型
论文还专门梳理了从单一模态模型到任意到任意模态模型的演变时间线。这里的“任意到任意”指的是,输入和输出都可以是多种模态的组合,例如输入文字和图像,输出语音和视频。这是一个极具前瞻性的方向,也是未来多模态人工智能发展中的核心挑战之一。

从时间线来看,早期的模型基本局限于单一模态,随后逐步出现了双向的图文模型,再往后才诞生了真正意义上的任意到任意模态模型。值得注意的是,图中还将基于状态空间模型(如Mamba)的路线作为另一条发展脉络列出,这说明变换器并非唯一出路——VL-mamba和Cobra这类视觉-语言模型已经在积极探索非变换器架构。
总而言之,这篇论文的重要价值在于为混乱的多模态模型世界绘制了一张清晰的“谱系图”。对于那些希望深入了解技术选型的人来说,弄清楚自己的模型属于A、B、C、D中的哪一类,往往比直接进行参数调优更为关键。
详细论文见:
https://arxiv.org/pdf/2405.17927
