先来聊聊背景。在2024年外滩大会上,哈啰高调展示了其AI战略布局,大有“黑马”之势。从最初共享单车业务起步,到如今覆盖本地出行与生活服务的全场景平台,哈啰在智能化时代的转型路径十分清晰。

在技术探索之路上,哈啰的核心武器是构建了一套基于向量数据库的RAG应用。海螺机器人、交易机器人、光子引擎、贾维斯幻视大模型平台……这些大模型应用均已落地,不仅显著提升了内部效率与客户体验,也推动整个行业向数字化方向迈进。
01. RAG:哈啰的关键选择
RAG技术,简单来说就是检索加生成——先检索相关信息,再让大模型生成答案。哈啰将其应用于智能客服、内部问答系统等场景,效果十分出色。
向量数据库在哈啰技术体系中的地位日益重要,以下典型场景值得关注:
智能客服平台:哈啰的智能客服对向量数据库的运用非常到位。AI机器人能快速捕捉用户意图,从海量知识库中精准提取最相关内容。相比传统关系型数据库,响应速度与准确性均有显著提升。单车、助力车、顺风车、租车等业务均在使用,订单查询、投诉退费、故障报修等场景全覆盖。用户满意度提升的同时,人工客服压力也明显减轻。
海螺机器人:这是哈啰内部提效的秘密武器。它将公司各子系统及业务文档统一整合,存入向量数据库,员工只需智能检索即可获取所需信息。信息查找流程大幅简化,工作效率自然水涨船高。
图像比对:技术团队借助向量数据库进行图片相似度计算,用户提交报障图片后,系统能快速识别并精准处理。同时可防止重复报障,优化风控。运维场景也广泛应用——摆车、擦车等作业的真实性,通过比对一目了然,虚假作业无处遁形。
数字人直播:AI数字人主播在直播时,用户提问能实时匹配答案,互动性极强。数字人不仅能回答常见问题,还能针对用户需求提供个性化方案,直播体验更加生动有趣。
02. 选型之旅:从ES到Milvus,再到Zilliz Cloud
哈啰的技术选型过程如同一场探险,但每一步都走得扎实稳健。
2.1 为什么ES不够用?
早期,哈啰使用Elastic Search处理数据。但随着业务拓展,问题逐渐暴露:ES在语义理解与精确召回方面开始力不从心。于是团队开始寻找更合适的方案。经过对比向量插件、NoSQL数据库与专用向量数据库,结论是——专用向量数据库才是最佳选择。
NoSQL在处理大规模向量数据与复杂检索时效率不足。向量插件虽然使用方便,但性能与稳定性欠佳,商业化产品不敢押注。向量数据库的优势则十分明显:能处理高维数据,语义搜索更精准,性能稳定,完全符合商业场景需求。
2.2 为什么选择Milvus?
测试结果显示,Milvus的召回效果与性能表现突出。数据写入与索引构建速度是ES的近百倍,对于抖音上实时性要求极高的RAG应用而言,这简直是降维打击。此外,Milvus的社区支持与技术更新非常给力,为技术选型提供了可靠的后盾。
2.3 混合检索,更高效更精准
ES擅长关键词匹配,全文检索效率高;Milvus则擅长语义理解,近义词、同义词都能轻松搜出。哈啰的做法是将两者结合:系统对ES和Milvus召回的结果进行合并去重,再经过Reranking,最终结果自然更精准、更高效。值得一提的是,Milvus新推出的2.5版本已引入Sparse-BM25算法,能在稀疏向量上实现全文检索,与密集向量搜索配合使用,效果更佳。
2.4 Zilliz Cloud:上云让运维更轻松
业务飞速发展,问题也随之而来——一次ETCD故障导致的宕机,让自建Milvus集群的短板彻底暴露:运维成本高,学习曲线陡;业务流量增大需扩容时,还得与运维协调排期,效率大打折扣。业务稳定性难以保证,因为团队不仅要关注业务,还要盯着各种配套设施。
这些挑战让哈啰下定决心:构建Zilliz + Milvus双集群,实现故障转移、负载均衡及多租户支持。事实证明,上云是正确的决策。
性能更强,运行更稳:Zilliz Cloud自研的Cardinal索引算法,在QPS上比云厂商的RAG及开源向量数据库提升了10倍以上。多Partition设计让数据管理更高效,相似数据存储在同一个Partition中,检索速度自然更快。加上99.95%的SLA保障,业务迁移完成后基本未再出现宕机事故。
扩缩容更灵活:业务流量波动大,弹性扩容功能正好派上用场。哈啰工程师直言:“在Zilliz Cloud上,我们只需调整配置就能快速扩容,非常方便。”高峰时段迅速扩展资源,低谷时段快速回收,资源利用率拉满。
成本效益更明显:迁移到Zilliz Cloud后,扩容缩容变得异常便捷,运维负担大幅减轻。弹性伸缩功能可根据实时用量动态调整集群容量,防止因资源不足导致禁写,帮助开发者降本。哈啰工程师表示:“上云之后,我们做了30%到50%至100%的切流。切流完成后,对整个集群就没再关注过。”相比之下,云服务的按需付费模式更灵活,资源浪费也更少。
丝滑的数据迁移:从Milvus到Zilliz Cloud的迁移过程,在Zilliz开发的迁移服务加持下,顺畅得令人意外。该服务专为大规模向量数据迁移设计,目前支持从Milvus、Elasticsearch、pgvector等多种外部数据源迁移,也支持同组织或跨组织间的Zilliz Cloud集群迁移。
03. 迭代自我,加速业务突破
技术是业务突破的引擎,业务需求反过来也在推动技术迭代。这种良性互动在哈啰的发展历程中持续发酵。向量数据库作为技术革新的关键一环,为哈啰在大模型时代的自我进化提供了强大动力,也为其在智能出行领域持续保持技术领先地位奠定了坚实基础。
