RAG从复读机到逻辑大脑：既找得准也说得清

时间：2026-06-18 16:47

Day14 学习日记：从「复读机」到「逻辑大脑」：让 RAG 既找得准，也说得清日期与进度概览日期：2026 年 4 月 14 日项目进度：RAG 核心链路闭环（检索 → 融合 → 生成 → 证据链 → 日志）关键词：Hybrid Search（Vector + FTS）、RRF 融合、日期锚点、

Day14 学习日记：从「复读机」到「逻辑大脑」：让 RAG 既找得准，也说得清

日期与进度概览

日期：2026 年 4 月 14 日
项目进度：RAG 核心链路闭环（检索 → 融合 → 生成 → 证据链 → 日志）
关键词：Hybrid Search（Vector + FTS）、RRF 融合、日期锚点、证据链（Citations）、可观测性（Observability）

1) 今日关键目标：让 AI 不止会答，更要“可验证” ✅

今天的工作核心并非单纯让模型“能说会道”，而是赋予它两项工程级品质：

一是**可检索（Retrievable）**——能够稳定命中目标文档，而非仅在语义相似区域徘徊。二是**可追溯（Traceable）**——每次回答均能提供清晰的证据链，让用户明确“依据来源”。

这两个品质共同将系统从“类似闲聊”升级为“模拟思考”的智能体。

2) 技术突破：补上单路检索的“盲区”

2.1 混合检索：Vector + Keyword 双路召回

纯向量检索擅长“语义近似”，但在“硬关键词、标题、编号、任务名”方面不够稳定；相反，全文检索擅长“字面匹配”，却易遗漏同义改写。

因此，常见方案是采用双路并行召回策略：

**Vector 路**：处理同义改写、概念相近、表达不精确的问题。
**Keyword/FTS 路**：处理任务编号、标题词、精准短语、文件线索等“硬事实”。

检索从“押题式”转向“覆盖面更全的候选集生成”。

2.2 RRF 融合：用“排名共识”替代“单一分数迷信”

混合检索的关键不仅在于“两路都搜”，更在于“如何合并”。今日采用的 RRF（Reciprocal Rank Fusion）思路十分巧妙：不再纠结两路分数的量纲差异，而是聚焦排名共识，让“多路均靠前”的结果自然上浮。

核心逻辑（仅保留核心公式）：

def rrf(rank: int, k: int = 60) -> float:
    return 1.0 / (k + max(1, rank))