多模态技术是释放垂直AI软件潜力的关键

首页/AI教程/文章详情

多模态技术是释放垂直AI软件潜力的关键

时间：2026-07-03 15:43

多模态技术正推动垂直AI应用从语音转录向端到端对话代理演进，低延迟与情绪理解成为关键。视觉模型在数据提取、检查、设计及视频分析中落地。AI代理已能处理复杂推理，在销售、谈判、安全调查等领域展现潜力，未来将自主完成更多工作流。

先分享一个核心判断：垂直AI软件的未来，已经不再是“会不会来”的问题，而是“会以多快速度、多深层次”渗透各行各业。

这个观点来自Bessemer——如果你熟悉SaaS赛道，一定知道这家机构的分量。作为美国SaaS领域最顶级的投资方之一，过去十年投了超过200家SaaS公司，它对垂直AI的理解，值得认真对待。

为了更好地讲清楚垂直AI软件的价值，Bessemer专门发布了一份垂直AI路线图，总共四个部分。今天要聊的，是这份路线图的第二篇。它核心在回答一个问题：多模态技术落地后，垂直AI应用到底会发生什么变化？目前又有哪些值得关注的实际案例？

01 多模态技术正在改变垂直AI应用

过去一年里，全球涌现出一批新模型。它们在理解语境、减少幻觉、整体推理能力上进步显著。尤其在语音识别、图像处理、语音生成这几个方向，AI的能力正在一步步逼近人类。别小看这个变化——它为AI解锁了一大批原本够不着的新场景。

语音功能

对话语音领域的发展尤其快。语音转文本（自动语音识别）和文本转语音（生成语音）这两类模型，已经批量落地。

目前市场上几十家公司都在提供基于这些模型的语音服务，大量新的语音AI应用也随之涌现。

这些应用大多依赖一种“级联架构”：先把语音转成文本，然后把文本喂给大语言模型生成回复，最后再把文本输出转回语音。听起来流畅，但问题也不少——有延迟，还会丢失用户对话中的情感表达。

转折点来了。新一代语音原生模型已经发布，包括OpenAI的Realtime API（支持通过GPT-4o实现语音对语音交互），以及Kyutai的Moshi等开源项目。

和上一代相比，这些语音原生模型的延迟大幅降低（低于500毫秒）。它们还能捕捉更多来自用户的上下文信息——语气、情绪、情感——并生成匹配的回应。交流更自然，也更能满足用户的实际需求。

接下来几年，随着更多对话式语音应用基于这些新模型构建，整个赛道的速度和质量都会上一个台阶。

语音应用案例

语音转录已经相当成熟，端到端对话语音袋里也取得了早期突破。我们认为，这才是语音AI的未来方向。下面看几个具体案例：

1）转录功能让用户腾出时间处理后续工作

Bessemer投资的Abridge率先推出了医疗转录应用。它能根据临床对话自动生成医疗记录，并确定下一步行动——比如开药、预约专家。医生可以把更多精力放在患者身上，而不是案头工作。

另一个好例子是Rilla voice，它把AI引入家庭服务领域。它的转录应用能记录销售人员和客户的对话，用于培训。销售经理可以远程提供指导，不用再花大量时间“跑现场”。

2）AI接管销售线索

目前端到端语音袋里最亮眼的用例之一就是入站销售。在家庭服务或汽车经销商这类垂直场景里，语音袋里可以在下班后或销售员忙不过来时接听客户电话，确保企业不错失有价值的潜在客户。这些功能比过去的语音机器人聪明得多，几乎不需要人工介入。

3）AI客服升级用户体验

AI客服并不是新事物，但早期交互式语音应答（IVR）的体验大家有目共睹。现代语音袋里则完全不同——无论客户怎么提问、用什么措辞，它都能给出正确答案。客服人员也因此能腾出手来，处理更复杂的客户问题。

4）自动外拨，扩大漏斗顶端

已经有多种方案可以自动完成销售和招聘团队的外拨电话。语音袋里会按照预设标准识别潜在线索或候选人，完成首轮沟通，然后把人引导到销售或招聘人员的下一轮会议。

让AI接管外拨工作，可以大幅增加联系线索的数量，从而扩大公司漏斗顶端。长期来看，销售和招聘人员也能把精力集中在最有价值的线索上。

当然，有一点需要注意：相关法规必须跟上，防止AI被滥用于推销电话。

在所有语音用例中，低延迟和理解用户情绪，会成为关键竞争点。此外，不同应用场景对AI语音方案的要求也各有侧重——比如实时协调多个底层模型来优化成本和性能，支持全渠道通信、多语言和实时翻译。

视觉方面，这两年也出现了GPT-4 with vision（GPT-4V）这类能解释图像并回答相关问题的模型，以及能处理原始图像和视频的多模态模型。谷歌的多模态模型Gemini 1.5 Pro就是一个典型代表。

可以预期，这些模型还会继续提升性能、降低成本——对应用开发者来说，这是实打实的好消息。

视觉和视频的用例

垂直应用中，视觉相关用例通常分为四类：数据提取、视觉检查、设计、视频分析。其中数据提取是当前最成熟的场景，但其他几个方向也在快速跟进：

1）从图片、PDF等非结构化文档中提取数据

AI可以大幅减轻繁琐的人工数据录入负担。比如Raft这家公司，面向货运袋里行业，结合计算机视觉和大语言模型，从PDF发片中提取关键信息，自动填充到客户的ERP系统中，还能辅助完成发片核对、海关申报等后续任务。

2）提升人工检查的效率

很多公司已经在用AI简化检查流程、加速出结果。以建筑AI平台xBuild为例，它能为住宅建筑和修复项目生成工作范围包，再与保险公司合作获取报销批准。xBuild用受损屋顶的照片和房屋蓝图来生成报告，根据当地建筑规范确定修复范围。其他应用也在用AI和计算机视觉做施工图的质量审查，尽早发现错误，避免后期返工。

3）生成2D和3D设计

面向建筑、工程和施工行业的AI平台数量激增。有的公司用AI做可行性评估，把拟建场地的视觉描述和成本数据结合起来，动态调整方案。像Snaptrude这样的工具，能直接生成建筑的详细3D设计图，把结构工程师从重复性工作中解放出来。

4）视频分析

生成和理解视频的模型目前还不算最成熟，但进步很快。在对象跟踪、分类、甚至视频内容的自然语言搜索方面，视频理解模型已经相当强大了。有些甚至已经商业化落地——比如用AI监控工业现场的安全违规行为。

考虑到视频模型的进化速度，未来几年我们会看到更多让人印象深刻的AI应用落地，尤其是在机器人领域——视频理解是机器人感知的关键一环。

在所有视觉用例中，创始人需要注意一点：不要把复杂性等同于价值。AI解决方案很强，但归根结底，用户看的还是它能不能适配现有的工作流程。如果自动化方案需要和难以替代的核心系统（比如Revit）做繁琐集成，而且初始投资回报率不高，那再好的技术也很难推动销售和采用。

早期公司不妨从技术复杂度较低、范围更窄的产品起步，再逐步扩展。最好的路径会因行业而异，但权衡利弊永远是必要的。

02 人工智能袋里的前景

早期的人工智能袋里或多或少有些炒作成分，但现在，真正的落地进展已经出现。随着OpenAI o1模型的推出，袋里已经能处理更复杂的推理任务。

目前，袋里在文本、语音和视觉工作流中承担重复性任务和通讯工作。但接下来一年，随着基于更先进推理模型的应用出现，AI袋里的真正潜力将逐步释放——自主处理复杂工作流。

1）销售和营销

多家公司已经推出AI袋里，帮助销售团队寻找和联系潜在客户。它们的核心优势在于：能做大量研究，识别高质量线索——通过对目标公司、员工和相关行业新闻进行详细网络搜索——然后生成个性化邮件。由于袋里能高质量地完成研究和推广工作，销售人员可以把时间更多花在跟进热线索上。

2）谈判

AI袋里在自动完成多方谈判方面，已经展示出不俗的前景。Pactum等公司开发出了能就供应链案例协商法律和商业条款的AI袋里。Pactum的袋里可以直接和供应商谈判，优化交易条款。其他垂直AI公司在销售和促销领域也采用了类似的方法。

3）调查

企业网络安全团队经常被大量安全警报压得喘不过气。现在，AI袋里可以协助完成警报调查的初始阶段——从多个系统收集信息，研究可能的恶意行为，总结事件并评估严重程度。虽然目前多数团队倾向让袋里处理低风险任务，但可以预见，随着袋里能力提升，更多需要信息收集和综合判断的工作流会被逐步接管。

我们认为，能够跨多种模式进行复杂推理的袋里，会比那些只能处理单一场景的解决方案更有价值。

特别需要注意的是：通过巧妙的架构设计——把正确的模型、反馈回路等拼接在一起——袋里工作流的性能可以持续提升。袋里的性能不完全取决于数据和计算的规模，这对初创公司来说是个更有吸引力的机会。在底层模型快速迭代的背景下，如何平衡技术护城河和灵活性的关系，将成为一个关键命题。

总的来说，越来越多垂直AI的创始人在尝试利用多模态能力，去解决更广泛的实际问题。和文本一样，语音和视觉的底层模型会日益商品化，这让在强大基础模型之上构建应用的公司，有了更可持续的生存空间。可以确定的是，这一波垂直AI应用不仅会改变它们所服务的行业格局，更会彻底改变我们工作和与世界互动的方式。

来源：https://www.aiagiai.com/4837.html

上一篇Qoder集成deepseek、小米mimo与智普自定义模型 下一篇Docker一键部署File Browser网页文件管理

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。