先分享一个核心判断:垂直AI软件的未来,已经不再是“会不会来”的问题,而是“会以多快速度、多深层次”渗透各行各业。
这个观点来自Bessemer——如果你熟悉SaaS赛道,一定知道这家机构的分量。作为美国SaaS领域最顶级的投资方之一,过去十年投了超过200家SaaS公司,它对垂直AI的理解,值得认真对待。
为了更好地讲清楚垂直AI软件的价值,Bessemer专门发布了一份垂直AI路线图,总共四个部分。今天要聊的,是这份路线图的第二篇。它核心在回答一个问题:多模态技术落地后,垂直AI应用到底会发生什么变化?目前又有哪些值得关注的实际案例?
01 多模态技术正在改变垂直AI应用
过去一年里,全球涌现出一批新模型。它们在理解语境、减少幻觉、整体推理能力上进步显著。尤其在语音识别、图像处理、语音生成这几个方向,AI的能力正在一步步逼近人类。别小看这个变化——它为AI解锁了一大批原本够不着的新场景。
语音功能
对话语音领域的发展尤其快。语音转文本(自动语音识别)和文本转语音(生成语音)这两类模型,已经批量落地。
目前市场上几十家公司都在提供基于这些模型的语音服务,大量新的语音AI应用也随之涌现。
这些应用大多依赖一种“级联架构”:先把语音转成文本,然后把文本喂给大语言模型生成回复,最后再把文本输出转回语音。听起来流畅,但问题也不少——有延迟,还会丢失用户对话中的情感表达。
转折点来了。新一代语音原生模型已经发布,包括OpenAI的Realtime API(支持通过GPT-4o实现语音对语音交互),以及Kyutai的Moshi等开源项目。
和上一代相比,这些语音原生模型的延迟大幅降低(低于500毫秒)。它们还能捕捉更多来自用户的上下文信息——语气、情绪、情感——并生成匹配的回应。交流更自然,也更能满足用户的实际需求。
接下来几年,随着更多对话式语音应用基于这些新模型构建,整个赛道的速度和质量都会上一个台阶。
语音应用案例
语音转录已经相当成熟,端到端对话语音袋里也取得了早期突破。我们认为,这才是语音AI的未来方向。下面看几个具体案例:
1)转录功能让用户腾出时间处理后续工作
Bessemer投资的Abridge率先推出了医疗转录应用。它能根据临床对话自动生成医疗记录,并确定下一步行动——比如开药、预约专家。医生可以把更多精力放在患者身上,而不是案头工作。
另一个好例子是Rilla voice,它把AI引入家庭服务领域。它的转录应用能记录销售人员和客户的对话,用于培训。销售经理可以远程提供指导,不用再花大量时间“跑现场”。
2)AI接管销售线索
目前端到端语音袋里最亮眼的用例之一就是入站销售。在家庭服务或汽车经销商这类垂直场景里,语音袋里可以在下班后或销售员忙不过来时接听客户电话,确保企业不错失有价值的潜在客户。这些功能比过去的语音机器人聪明得多,几乎不需要人工介入。
3)AI客服升级用户体验
AI客服并不是新事物,但早期交互式语音应答(IVR)的体验大家有目共睹。现代语音袋里则完全不同——无论客户怎么提问、用什么措辞,它都能给出正确答案。客服人员也因此能腾出手来,处理更复杂的客户问题。
4)自动外拨,扩大漏斗顶端
已经有多种方案可以自动完成销售和招聘团队的外拨电话。语音袋里会按照预设标准识别潜在线索或候选人,完成首轮沟通,然后把人引导到销售或招聘人员的下一轮会议。
让AI接管外拨工作,可以大幅增加联系线索的数量,从而扩大公司漏斗顶端。长期来看,销售和招聘人员也能把精力集中在最有价值的线索上。
当然,有一点需要注意:相关法规必须跟上,防止AI被滥用于推销电话。
在所有语音用例中,低延迟和理解用户情绪,会成为关键竞争点。此外,不同应用场景对AI语音方案的要求也各有侧重——比如实时协调多个底层模型来优化成本和性能,支持全渠道通信、多语言和实时翻译。
视觉方面,这两年也出现了GPT-4 with vision(GPT-4V)这类能解释图像并回答相关问题的模型,以及能处理原始图像和视频的多模态模型。谷歌的多模态模型Gemini 1.5 Pro就是一个典型代表。
可以预期,这些模型还会继续提升性能、降低成本——对应用开发者来说,这是实打实的好消息。
视觉和视频的用例
垂直应用中,视觉相关用例通常分为四类:数据提取、视觉检查、设计、视频分析。其中数据提取是当前最成熟的场景,但其他几个方向也在快速跟进:
1)从图片、PDF等非结构化文档中提取数据
AI可以大幅减轻繁琐的人工数据录入负担。比如Raft这家公司,面向货运袋里行业,结合计算机视觉和大语言模型,从PDF发片中提取关键信息,自动填充到客户的ERP系统中,还能辅助完成发片核对、海关申报等后续任务。
2)提升人工检查的效率
很多公司已经在用AI简化检查流程、加速出结果。以建筑AI平台xBuild为例,它能为住宅建筑和修复项目生成工作范围包,再与保险公司合作获取报销批准。xBuild用受损屋顶的照片和房屋蓝图来生成报告,根据当地建筑规范确定修复范围。其他应用也在用AI和计算机视觉做施工图的质量审查,尽早发现错误,避免后期返工。
3)生成2D和3D设计
面向建筑、工程和施工行业的AI平台数量激增。有的公司用AI做可行性评估,把拟建场地的视觉描述和成本数据结合起来,动态调整方案。像Snaptrude这样的工具,能直接生成建筑的详细3D设计图,把结构工程师从重复性工作中解放出来。
4)视频分析
生成和理解视频的模型目前还不算最成熟,但进步很快。在对象跟踪、分类、甚至视频内容的自然语言搜索方面,视频理解模型已经相当强大了。有些甚至已经商业化落地——比如用AI监控工业现场的安全违规行为。
考虑到视频模型的进化速度,未来几年我们会看到更多让人印象深刻的AI应用落地,尤其是在机器人领域——视频理解是机器人感知的关键一环。
在所有视觉用例中,创始人需要注意一点:不要把复杂性等同于价值。AI解决方案很强,但归根结底,用户看的还是它能不能适配现有的工作流程。如果自动化方案需要和难以替代的核心系统(比如Revit)做繁琐集成,而且初始投资回报率不高,那再好的技术也很难推动销售和采用。
早期公司不妨从技术复杂度较低、范围更窄的产品起步,再逐步扩展。最好的路径会因行业而异,但权衡利弊永远是必要的。
02 人工智能袋里的前景
早期的人工智能袋里或多或少有些炒作成分,但现在,真正的落地进展已经出现。随着OpenAI o1模型的推出,袋里已经能处理更复杂的推理任务。
目前,袋里在文本、语音和视觉工作流中承担重复性任务和通讯工作。但接下来一年,随着基于更先进推理模型的应用出现,AI袋里的真正潜力将逐步释放——自主处理复杂工作流。
1)销售和营销
多家公司已经推出AI袋里,帮助销售团队寻找和联系潜在客户。它们的核心优势在于:能做大量研究,识别高质量线索——通过对目标公司、员工和相关行业新闻进行详细网络搜索——然后生成个性化邮件。由于袋里能高质量地完成研究和推广工作,销售人员可以把时间更多花在跟进热线索上。
2)谈判
AI袋里在自动完成多方谈判方面,已经展示出不俗的前景。Pactum等公司开发出了能就供应链案例协商法律和商业条款的AI袋里。Pactum的袋里可以直接和供应商谈判,优化交易条款。其他垂直AI公司在销售和促销领域也采用了类似的方法。
3)调查
企业网络安全团队经常被大量安全警报压得喘不过气。现在,AI袋里可以协助完成警报调查的初始阶段——从多个系统收集信息,研究可能的恶意行为,总结事件并评估严重程度。虽然目前多数团队倾向让袋里处理低风险任务,但可以预见,随着袋里能力提升,更多需要信息收集和综合判断的工作流会被逐步接管。
我们认为,能够跨多种模式进行复杂推理的袋里,会比那些只能处理单一场景的解决方案更有价值。
特别需要注意的是:通过巧妙的架构设计——把正确的模型、反馈回路等拼接在一起——袋里工作流的性能可以持续提升。袋里的性能不完全取决于数据和计算的规模,这对初创公司来说是个更有吸引力的机会。在底层模型快速迭代的背景下,如何平衡技术护城河和灵活性的关系,将成为一个关键命题。
总的来说,越来越多垂直AI的创始人在尝试利用多模态能力,去解决更广泛的实际问题。和文本一样,语音和视觉的底层模型会日益商品化,这让在强大基础模型之上构建应用的公司,有了更可持续的生存空间。可以确定的是,这一波垂直AI应用不仅会改变它们所服务的行业格局,更会彻底改变我们工作和与世界互动的方式。
