在RAG领域,网易有道自研的QAnything引擎最近引发了不少关注。简单来说,它是一种让用户上传PDF、图片、Word、Excel、PowerPoint等格式文档后,能像ChatGPT一样进行互动问答的系统,更关键的是,每个答案都能精确追溯回原文中的具体位置。更重要的是,它支持纯本地部署,文档数量无上限,问答准确率也相当可观。
自从今年1月开源以来,QAnything迅速吸引了开发者社区的目光,甚至多次登上GitHub trending榜单。截至目前,它在GitHub上已经积累了超过7000个星标,社区反响相当热烈。
QAnything 系统架构图
下载量方面,QAnything已达数万次。其核心组件——语义嵌入排序模型BCEmbedding,更是每月能收获超过60万次下载。
BCEmbedding:核心技术支点
这里有一个关键点值得展开:QAnything采用自研的BCEmbedding模型作为检索模块。在实际的toB客服问答等场景中,有道团队发现,OpenAI的Ada2模型检索准确率仅约60%,而自研的BCEmbedding能将其提升至95%。支撑这一优势的两大特色,一是中英双语跨语种能力,二是多领域覆盖。
为了覆盖尽可能多的应用场景,QAnything在训练语料上下了不少功夫,收集了教育、医疗、法律、金融、百科、科研论文、客服、通用QA等领域的数据。这使得它在商业化落地时,能够更快地适应不同的行业需求。
落地有道:从教育到企业
在自家业务中,QAnything已经展现出强大的实用价值。以“有道领世”为例,它基于海量的升学数据,借助QAnything打造出一个“私人AI规划师”。面对高考政策、升学路径、职业规划等问题,该系统的解答准确率已超过95%,而且随着数据的持续补充与更新,这一数字还在不断攀升。
另一个典型应用是“有道速读”。文档问答、文章摘要、要点解读、引文口碑和领域综述,这些核心功能的背后都是QAnything在驱动。用户能快速理解文档、定位要点——短短一分钟,万字长文就能被拆解得一清二楚。
除了赋能自身业务,开源后的QAnything还在不断拓展“朋友圈”。目前,它已累计为近百家企业提供支持,推动AI真正进入医疗、物流、办公等多元化场景。从个人效率工具到企业级应用,QAnything正在让RAG技术从概念走向更具实际影响力的阶段。
