大模型领域最近又有不少有意思的动向,今天咱们就来盘一盘几个关键方向:GraphRAG 的落地进展、OpenAI 推理模型的最佳实践、深度思考与 RAG 的融合成果,以及它们在医疗等场景中的应用价值。话不多说,直接上干货。

今天是 2025 年 2 月 15 日,星期六,北京晴好。我们来梳理一下大模型领域昨日更新的几个有趣进展,重点围绕 GraphRAG、OpenAI 推理模型使用实践、大模型训练注意力机制以及 DeepSeek 推理建议 等话题展开,供大家参考。
另外,还有一个值得关注的方向:深度思考与 RAG 结合。具体来说,是在生成嵌入(Embedding)的同时,让 LLM 输出思考过程(thought),这跟之前的 HyDE 做法有异曲同工之妙。
专题化、体系化地推进这些技术,能带出更多深度思考。大家一起加油。
一、昨日大模型的一些有趣进展
接着聊聊昨天出现的几个值得关注的工作。
1、GraphRAG 进展:PIKE-RAG
PIKE-RAG(sPecIalized KnowledgE and Rationale Augmented Generation)是微软开源的一个新方案,核心思路是通过提取、理解并应用领域特定知识,同时构建连贯的推理逻辑,一步步引导 LLM 产出答案。它由几个基本模块组成:文档解析、知识抽取、知识存储、知识检索、知识组织、以知识为中心的推理,以及任务分解与协调。项目地址:论文,GitHub。
2、推理模型使用实践建议
OpenAI 官方博客刚发布了一篇关于推理类模型(如 o1、o3)的最佳实践指南,内容同样适用于 DeepSeek R1。文章详细说明了如何将 GPT 模型与 o1 这类推理模型结合起来,最大化收益。比如,如何有效地使用推理模型,以及两者配合的策略。参考链接:官网指南。
3、GraphRAG 进展:MedRAG 医疗问答路线
GraphRAG 在医疗领域有了新应用——MedRAG。该方案结合知识图谱进行上下文扩展,为医疗问答提供了更可靠的路径。具体技术细节可参见相关文章。
4、大模型训练注意力机制进展:TransMLA
一项名为《TransMLA: Multi-head Latent Attention Is All You Need》的工作,提出了多头潜注意力(MLA)机制。理论分析和实验都证明,MLA 在相同 KV 缓存开销下,表达能力超越了 GQA。作者还推出了 TransMLA 方法,能将现有的 GQA 模型转换为高性能的 MLA 模型,为解决 LLM 的 KV 缓存瓶颈提供了新思路。论文:arXiv,代码:GitHub。
5、DeepResearch 开源复现:SciraAI 的 Extreme 模式
SciraAI 开源了一个完全开源的 DeepResearch 搜索实现,称为 Extreme 模式。它会自动制定研究计划、搜索内容、深入分析,并提供实时进度更新和详细响应。有人用它搜索 DeepSeek 的信息并分析 R1 模型对行业的影响,结果跑了 16 步,最终质量与 Gemini Thinking 调用搜索的结果相当,但还达不到 OpenAI DeepResearch 的水平。项目地址:GitHub。
6、推理时扩展提升大模型推理能力
一篇《Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling》的论文,通过实证分析展示了计算最优的 TTS(Test-Time Scaling)策略。内部 TTS 通过训练模型“慢速思考”来提升推理能力,外部 TTS 则依赖采样或搜索方法改进推理性能。文中使用了 PRM-Min、PRM-Last、PRM-A vg 等评分方法,以及 MajorityVote、PRM-Max、PRM-Vote 等投票方法。实验采用了 Best-of-N(BoN)、束搜索和多样化验证树搜索(DVTS)三种方式,在推理过程中动态分配计算资源。要最大化 TTS 性能,核心在于奖励策略的设定——选择与特定测试时策略对应的超参数,从而在特定提示上获得最佳收益。
7、DeepSeek 推理建议、参数设定及联网搜索 Prompt 开源
DeepSeek 官方在 GitHub 上开源了 R1 模型的详细使用建议、参数设定以及联网搜索的 Prompt 模板。具体内容可查看其官方仓库:GitHub。例如,使用建议如下:
联网搜索的 Prompt 示例:
二、深度思考与 RAG 结合:让 Embedding 带上“思考”
接着聊深度思考与 RAG 的结合,重点看看在 Embedding 层面的创新。
有一篇名为《O1 Embedder: Let Retrievers Think Before Action》(论文链接:arXiv)的工作,思路很直接:生成关于输入查询的 thought(思考),然后将 thought 与 question 拼接在一起,分别独立生成嵌入,再通过池化聚合。说白了,这个 Embedding 模型比传统模型多了一个 thought 输出的通道。
那么,如何让模型具备这种能力?答案是通过微调,两个并行任务一起上:一个是 thought 生成,另一个是对比学习。
微调数据怎么来?先利用 LLM 生成初始 thought,然后使用检索评分器,根据初始 thought 与目标文档之间的相关性进行评分,最终通过多数投票选出最佳的 thought。
在多个数据集上的表现相当亮眼:在 MS MARCO、DL'19 和 DL'20 上,O1 Embedder 在所有评价指标上均超越了 BM25、ANCE、TAS-B、coCondenser、SimLM、RepLLaMA、Promptiever 等模型。在 MS MARCO(dev)、TREC DL19、TREC DL20 以及 BEIR 等外部数据集上,O1 Embedder 平均提高了 2.3%,展现了不错的泛化能力。
尤其值得关注的是,在涉及复杂推理的任务(如 HotPotQA 和 CosQA)中,O1 Embedder 表现出色。思考机制在部分开放 QA 数据集上带来了显著提升,例如 NQ 数据集提高了 3.9%,HotPotQA 提高了 3.0%。这进一步印证了“让检索器先思考再行动”这一思路的有效性。
