大语言模型真的等同于生成式AI的全部吗?答案或许并非如此。在当下的人工智能热潮中,企业IT决策者正在将目光投向更广阔的领域——那些超越传统大语言模型的新一代AI解决方案。必须承认,并非所有企业场景都适合直接套用大语言模型。恰恰相反,新兴的多模态模型与更轻量级的小模型,正展现出解决特定业务需求的巨大潜力。
大语言模型凭借其强大的文本理解与生成能力,一度成为生成式AI的代名词。如今,绝大多数企业AI实验——从代码生成助手到文本生成图像工具——都离不开LLM的支持。但一些IT负责人指出,LLM并不总是最优选择。他们正将注意力转向新一代多模态模型,这类模型不仅能理解文字,还能处理存储在电子表格和向量数据库中的动态表格数据,以及视频、音频等更丰富的信息形式。

根据IDC发布的《生成式基础AI模型市场概览》,多模态基础模型融合了文本、音频、图像、视频等多种模态,能够完成“看图说话”或“根据图像回答问题”等任务。Google Gato、OpenAI GPT-4o、Microsoft LLaVA、Nvidia NeVA、Vicuna、BLIP2、Flamingo等均属于此类模型。

Northwestern Medicine的先进技术小组与戴尔AI创新团队合作,开发了一套专有的多模态大语言模型,能够解读胸部X射线图像并总结关键发现。应用这套模型后,患者获取检查结果的速度比以前快了近80%。未来,双方还计划开发针对CAT扫描和MRI的增强型多模态模型,以及面向整个电子病历的预测模型。该院麻醉师兼先进技术医学主任Mozziyar Etemadi博士指出,多模态模型之所以引人注目,恰恰是因为目前使用的人还不多。他表示,现有模型已帮助放射科医生在撰写文本记录上节省了40%的时间,而图像分析能力又进一步压缩了时间。他说:“以前模型主要依赖大语言模型处理文本或Excel数据,但现在我们可以处理图像、甚至X射线。这是一个令人兴奋的巨大飞跃。”

取代大模型,让新兴模型发挥作用
劳动力调度SaaS公司MakeShift也在探索超越LLM的新技术,旨在帮助医疗、零售、制造等行业的客户实现更复杂的预测性调度。CTO Danny McGuinness坦言:“我们曾用大语言模型为管理员和员工提供聊天支持,但当面对向量数据和包含数亿行关联数据的大型图结构,还要优化未来预测模型时,LLM就力不从心了。”
MakeShift转而采用麻省理工初创公司Ikigai Labs开发的、正在申请专利的大型图形模型(LGM)。McGuinness解释,LGM专门用于处理复杂的结构化数据,并建立数据间的相互关系、因果关系和相关性。MakeShift与Medico、HSBC、Spirit Halloween、Taager.com、Future Metals、WIO等公司一起,部署了Ikigai Labs的无代码模型。这些模型专为表格和时间序列数据而设计。Ikigai Labs由麻省理工人工智能与数据科学系主任Deva vrat Shah和Vinayak Ramesh联合创立,专注于为行列式结构的企业提供表格数据的AI服务。近半年来员工翻了一番,并于去年底获得2500万美元融资。
支持视频的多模态模型也在快速涌现,为依赖计算机视觉和视频的软件服务提供支撑。这给CIO们带来了一整套新工具,让他们能用最适合自身需求的AI模型来解决具体问题。对MakeShift及其客户来说,排班是一项极其复杂的业务活动——不仅因为需要24/7运转,还涉及工会规章和集体协议的层层约束。自去年起,MakeShift的工程师团队就与Ikigai Labs合作,基于其API和模型进行开发,如今这些模型已全面进入生产阶段。
McGuinness表示,依托基于LGM的AI技术,预测性排班变得简单了许多,即便数据和流程不断变化也能从容应对。随着AI不断学习迭代,MakeShift开始把更多类型的数据整合进模型。一位零售客户甚至引入了天气数据。“我们还可以整合公共数据,比如天气预报、公共交通距离,以及门店内人流密度等。”McGuinness说。此外,使用Ikigai模型的好处是能够揭示之前未被注意到的数据相关性与因果关系,激发团队和客户从全新角度理解数据。他举例:“我们的第一批医疗客户已经开始探索历史排班以外的用例,比如涉及财务交易的特定流程和事件。”
Databricks的AI副总裁Na veen Rao指出,LLM不仅能够通过标记语言处理表格数据,也能处理其他形式的数据——去年Databricks收购了他的公司Mosaic,这一点值得关注。随着Ikigai这类新模型的出现,以及大语言模型在任务完成上的局限性逐渐暴露,当前生成式AI市场的竞争异常激烈。CIO们面对众多不确定性和选择,需要从庞杂的技术与方案中做出抉择。

按需定制小模型
Gartner的AI分析师Arun Chandrasekaran表示,大语言模型演进为更强的多模态模型是意料之中的事。但他认为,由于成本高昂,这类模型在商业应用中的占比不会太大。“2023年,文本和代码模型占主导地位。随后我们看到了具备计算机视觉能力的模型,以及语音等其他模态。但从根本上看,构建这些模型所需的计算与数据资源成本仍然非常高。”因此,许多企业正在转而采用更小的模型,跳出大语言模型的固有框架。
他指出:“功能强大的模型确实在很多场景中有用。但市场在定价时,会周期性评估模型规模——因为小模型成本更低,对大部分企业任务来说已经足够。”Databricks的Na veen Rao同意这一判断。他透露,构建一个LLM的成本可能高达2亿美元,而其中大部分并非花在算力上,而是数据标注与数据管理——这才是决定模型性能的关键。Rao创立Mosaic的初衷,就是让企业拥有更实惠、更易用的模型。他认为,专业化才是大多数企业该走的路。
“这本质上是专业化与泛化的选择。大型模型需要在大量标记或广泛的文本与功能上训练。而小型模型则是一个子集,更专注于某一特定领域。”在这方面,开源可以帮到CIO们。Rao说:“你可以从零开始,用自己的数据构建模型;也可以直接采用开源模型,在你的数据上进行微调,适配自己的应用。”
Baldor Specialty Foods就是一家计划部署小模型的企业。其首席信息和数字官Satyan Parameswaran曾在UPS担任高级IT主管数十年。他直言:“我会用小模型。因为大语言模型有时会产生错误的幻觉。如果你不想自己设计模型,可以直接从Hugging Face上下载一个小模型,然后针对特定任务进行定制。”

生成式AI的新路线
在当今的AI市场上,已有多家企业AI供应商提供更小的模型,包括C3.ai、Anaplan、Dataiku和Hugging Face等。
Ikigai Labs的CEO Shah表示,LGM为表格时间戳数据(如电子表格)提供了概率化的数据表示。随着模型训练,它们能够学习随机变量之间的关系,识别缺失数据,或发现两个电子表格之间类似的行,从而催生新的洞察。Shah说:“这意味着你实际上可以把数据整合到一起。”用户可以在电子表格中生成新的行。在处理时间相关数据预测时,一旦变量出现变化,系统就能侦测到变化点并识别出异常数据。

因此,用户可以从多个维度、多个电子表格中创造并生成数据。“你可以在自己的数据上——仅限于你的数据——使用大型图形模型进行模拟或合成训练,从而从数据中获得有价值且有意义的洞察。”Shah说。
显然,成本将是决定这些模型定制程度的主要因素。目前,仅支持文本生成的LLM已经消耗巨大的计算能力。随着大型芯片制造商与云服务商争相推出算力更强的半导体,企业将继续尝试并投产各种大型和小型模型,以催生新的洞见,让业务更高效、更富有创新力。
当前,许多企业从实验入手接触LLM,确认效率后便投入生产。而多模态大模型和LGM的应用尚处于早期阶段,但像MakeShift的McGuinness这样的早期采用者,已经看到了成效。“我们希望帮客户在正确的时间,以最佳方式安排具备正确技能的人员。制定预测性工作时间表时,必须考虑工会协议的要求——员工资历、在不同地点的工作流动、特定的工会协议条款,还要考虑员工倦怠、加班费用等因素。这些都需要在排班模型中体现出来。”McGuinness指出,若没有AI介入,这项任务的复杂性和资源消耗相当庞大。但得益于新的多模态模型和专攻特定任务的小模型,这个难题正变得不再难以攻克。
```