Day14 学习日记 :从「复读机」到「逻辑大脑」:让 RAG 既找得准,也说得清

日期与进度概览
日期:2026 年 4 月 14 日项目进度:RAG 核心链路闭环(检索 → 融合 → 生成 → 证据链 → 日志)
关键词:Hybrid Search(Vector + FTS)、RRF 融合、日期锚点、证据链(Citations)、可观测性(Observability)
1) 今日关键目标:让 AI 不止会答,更要“可验证” ✅
今天的工作核心并非单纯让模型“能说会道”,而是赋予它两项工程级品质:
一是**可检索(Retrievable)**——能够稳定命中目标文档,而非仅在语义相似区域徘徊。二是**可追溯(Traceable)**——每次回答均能提供清晰的证据链,让用户明确“依据来源”。
这两个品质共同将系统从“类似闲聊”升级为“模拟思考”的智能体。
2) 技术突破:补上单路检索的“盲区”
2.1 混合检索:Vector + Keyword 双路召回
纯向量检索擅长“语义近似”,但在“硬关键词、标题、编号、任务名”方面不够稳定;相反,全文检索擅长“字面匹配”,却易遗漏同义改写。
因此,常见方案是采用双路并行召回策略:
**Vector 路**:处理同义改写、概念相近、表达不精确的问题。
**Keyword/FTS 路**:处理任务编号、标题词、精准短语、文件线索等“硬事实”。
检索从“押题式”转向“覆盖面更全的候选集生成”。
2.2 RRF 融合:用“排名共识”替代“单一分数迷信”
混合检索的关键不仅在于“两路都搜”,更在于“如何合并”。今日采用的 RRF(Reciprocal Rank Fusion)思路十分巧妙:不再纠结两路分数的量纲差异,而是聚焦排名共识,让“多路均靠前”的结果自然上浮。
核心逻辑(仅保留核心公式):
def rrf(rank: int, k: int = 60) -> float:
return 1.0 / (k + max(1, rank))
