多模态与小模型正取代大模型成企业首选_AI热点日报

多模态与小模型正取代大模型成企业首选

类型：热点整理2026-06-01

多模态模型和轻量小模型正成为企业新选择，因其能处理文本、图像、表格等多类型数据且成本更低。NorthwesternMedicine用多模态模型解读X射线，提速近80%；MakeShift采用大型图形模型优化排班。企业转向专业小模型以替代昂贵的大语言模型。

```html

大语言模型真的等同于生成式AI的全部吗？答案或许并非如此。在当下的人工智能热潮中，企业IT决策者正在将目光投向更广阔的领域——那些超越传统大语言模型的新一代AI解决方案。必须承认，并非所有企业场景都适合直接套用大语言模型。恰恰相反，新兴的多模态模型与更轻量级的小模型，正展现出解决特定业务需求的巨大潜力。

大语言模型凭借其强大的文本理解与生成能力，一度成为生成式AI的代名词。如今，绝大多数企业AI实验——从代码生成助手到文本生成图像工具——都离不开LLM的支持。但一些IT负责人指出，LLM并不总是最优选择。他们正将注意力转向新一代多模态模型，这类模型不仅能理解文字，还能处理存储在电子表格和向量数据库中的动态表格数据，以及视频、音频等更丰富的信息形式。

根据IDC发布的《生成式基础AI模型市场概览》，多模态基础模型融合了文本、音频、图像、视频等多种模态，能够完成“看图说话”或“根据图像回答问题”等任务。Google Gato、OpenAI GPT-4o、Microsoft LLaVA、Nvidia NeVA、Vicuna、BLIP2、Flamingo等均属于此类模型。

Northwestern Medicine的先进技术小组与戴尔AI创新团队合作，开发了一套专有的多模态大语言模型，能够解读胸部X射线图像并总结关键发现。应用这套模型后，患者获取检查结果的速度比以前快了近80%。未来，双方还计划开发针对CAT扫描和MRI的增强型多模态模型，以及面向整个电子病历的预测模型。该院麻醉师兼先进技术医学主任Mozziyar Etemadi博士指出，多模态模型之所以引人注目，恰恰是因为目前使用的人还不多。他表示，现有模型已帮助放射科医生在撰写文本记录上节省了40%的时间，而图像分析能力又进一步压缩了时间。他说：“以前模型主要依赖大语言模型处理文本或Excel数据，但现在我们可以处理图像、甚至X射线。这是一个令人兴奋的巨大飞跃。”

取代大模型，让新兴模型发挥作用

劳动力调度SaaS公司MakeShift也在探索超越LLM的新技术，旨在帮助医疗、零售、制造等行业的客户实现更复杂的预测性调度。CTO Danny McGuinness坦言：“我们曾用大语言模型为管理员和员工提供聊天支持，但当面对向量数据和包含数亿行关联数据的大型图结构，还要优化未来预测模型时，LLM就力不从心了。”

MakeShift转而采用麻省理工初创公司Ikigai Labs开发的、正在申请专利的大型图形模型（LGM）。McGuinness解释，LGM专门用于处理复杂的结构化数据，并建立数据间的相互关系、因果关系和相关性。MakeShift与Medico、HSBC、Spirit Halloween、Taager.com、Future Metals、WIO等公司一起，部署了Ikigai Labs的无代码模型。这些模型专为表格和时间序列数据而设计。Ikigai Labs由麻省理工人工智能与数据科学系主任Deva vrat Shah和Vinayak Ramesh联合创立，专注于为行列式结构的企业提供表格数据的AI服务。近半年来员工翻了一番，并于去年底获得2500万美元融资。

支持视频的多模态模型也在快速涌现，为依赖计算机视觉和视频的软件服务提供支撑。这给CIO们带来了一整套新工具，让他们能用最适合自身需求的AI模型来解决具体问题。对MakeShift及其客户来说，排班是一项极其复杂的业务活动——不仅因为需要24/7运转，还涉及工会规章和集体协议的层层约束。自去年起，MakeShift的工程师团队就与Ikigai Labs合作，基于其API和模型进行开发，如今这些模型已全面进入生产阶段。

McGuinness表示，依托基于LGM的AI技术，预测性排班变得简单了许多，即便数据和流程不断变化也能从容应对。随着AI不断学习迭代，MakeShift开始把更多类型的数据整合进模型。一位零售客户甚至引入了天气数据。“我们还可以整合公共数据，比如天气预报、公共交通距离，以及门店内人流密度等。”McGuinness说。此外，使用Ikigai模型的好处是能够揭示之前未被注意到的数据相关性与因果关系，激发团队和客户从全新角度理解数据。他举例：“我们的第一批医疗客户已经开始探索历史排班以外的用例，比如涉及财务交易的特定流程和事件。”

Databricks的AI副总裁Na veen Rao指出，LLM不仅能够通过标记语言处理表格数据，也能处理其他形式的数据——去年Databricks收购了他的公司Mosaic，这一点值得关注。随着Ikigai这类新模型的出现，以及大语言模型在任务完成上的局限性逐渐暴露，当前生成式AI市场的竞争异常激烈。CIO们面对众多不确定性和选择，需要从庞杂的技术与方案中做出抉择。

按需定制小模型

Gartner的AI分析师Arun Chandrasekaran表示，大语言模型演进为更强的多模态模型是意料之中的事。但他认为，由于成本高昂，这类模型在商业应用中的占比不会太大。“2023年，文本和代码模型占主导地位。随后我们看到了具备计算机视觉能力的模型，以及语音等其他模态。但从根本上看，构建这些模型所需的计算与数据资源成本仍然非常高。”因此，许多企业正在转而采用更小的模型，跳出大语言模型的固有框架。

他指出：“功能强大的模型确实在很多场景中有用。但市场在定价时，会周期性评估模型规模——因为小模型成本更低，对大部分企业任务来说已经足够。”Databricks的Na veen Rao同意这一判断。他透露，构建一个LLM的成本可能高达2亿美元，而其中大部分并非花在算力上，而是数据标注与数据管理——这才是决定模型性能的关键。Rao创立Mosaic的初衷，就是让企业拥有更实惠、更易用的模型。他认为，专业化才是大多数企业该走的路。

“这本质上是专业化与泛化的选择。大型模型需要在大量标记或广泛的文本与功能上训练。而小型模型则是一个子集，更专注于某一特定领域。”在这方面，开源可以帮到CIO们。Rao说：“你可以从零开始，用自己的数据构建模型；也可以直接采用开源模型，在你的数据上进行微调，适配自己的应用。”

Baldor Specialty Foods就是一家计划部署小模型的企业。其首席信息和数字官Satyan Parameswaran曾在UPS担任高级IT主管数十年。他直言：“我会用小模型。因为大语言模型有时会产生错误的幻觉。如果你不想自己设计模型，可以直接从Hugging Face上下载一个小模型，然后针对特定任务进行定制。”

生成式AI的新路线

在当今的AI市场上，已有多家企业AI供应商提供更小的模型，包括C3.ai、Anaplan、Dataiku和Hugging Face等。

Ikigai Labs的CEO Shah表示，LGM为表格时间戳数据（如电子表格）提供了概率化的数据表示。随着模型训练，它们能够学习随机变量之间的关系，识别缺失数据，或发现两个电子表格之间类似的行，从而催生新的洞察。Shah说：“这意味着你实际上可以把数据整合到一起。”用户可以在电子表格中生成新的行。在处理时间相关数据预测时，一旦变量出现变化，系统就能侦测到变化点并识别出异常数据。

因此，用户可以从多个维度、多个电子表格中创造并生成数据。“你可以在自己的数据上——仅限于你的数据——使用大型图形模型进行模拟或合成训练，从而从数据中获得有价值且有意义的洞察。”Shah说。

显然，成本将是决定这些模型定制程度的主要因素。目前，仅支持文本生成的LLM已经消耗巨大的计算能力。随着大型芯片制造商与云服务商争相推出算力更强的半导体，企业将继续尝试并投产各种大型和小型模型，以催生新的洞见，让业务更高效、更富有创新力。

当前，许多企业从实验入手接触LLM，确认效率后便投入生产。而多模态大模型和LGM的应用尚处于早期阶段，但像MakeShift的McGuinness这样的早期采用者，已经看到了成效。“我们希望帮客户在正确的时间，以最佳方式安排具备正确技能的人员。制定预测性工作时间表时，必须考虑工会协议的要求——员工资历、在不同地点的工作流动、特定的工会协议条款，还要考虑员工倦怠、加班费用等因素。这些都需要在排班模型中体现出来。”McGuinness指出，若没有AI介入，这项任务的复杂性和资源消耗相当庞大。但得益于新的多模态模型和专攻特定任务的小模型，这个难题正变得不再难以攻克。

```

来源：https://www.53ai.com/news/zhinenghuagaizao/2024052818720.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。