首页 游戏 软件 资讯 排行榜 专题
首页
AI
MAXSHAPLEY:RAG上下文归因优化与解决方案解析

MAXSHAPLEY:RAG上下文归因优化与解决方案解析

热心网友
77
转载
2025-12-10

我们提出一种名为 MAXSHAPLEY 的方案,这是一种专为 RAG 系统设计的“最大-求和”效用函数,旨在将 Shapley 归因的计算复杂度从指数级降至线性水平。该方案仅消耗传统暴力计算法 6%–7% 的 token 资源,就能保持高达 0.79+ 的 Kendall-τ 相关性以及与人工标注 0.9+ 的一致性水平,为实现生成式搜索的“按贡献计费”提供了一套具备可行性的落地算法。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

MAXSHAPLEY 的核心在于“先拆解要点、再取最大值、最后线性求 Shapley”这三步策略,成功将原本学术性的公平归因工具,转变为可在线上实际运行的高效方案。这为“AI 搜索—内容方”之间的利益重新分配,提供了第一条可扩展的技术路径。具体实现方式如下:

一、行业痛点

生成式搜索(如 Perplexity、Gemini 等)让用户能够实现“即问即答”,但这同时导致用户跳过原始网页,造成内容方的流量锐减。据 Bain 公司估计,到 2025 年,已有 80% 的用户将 40% 的时间停留在 AI 生成的摘要页面,而不再点击信息来源。流量消失即意味着广告收入的流失,出版机构将此类事件称为“灭绝级危机”,相关诉讼也不断涌现(如《纽约时报》诉 OpenAI、Chegg 诉 Google)。现有研究主要聚焦于“上下文归因”的可解释性,并未解决“谁该分多少钱”这一关乎公平补偿的实际问题;而传统的 Shapley 值计算虽在理论上公平,其 O(m2^m) 的复杂度在毫秒级响应的搜索场景中是完全无法接受的。

二、本文核心贡献

本文提出了 MAXSHAPLEY 方法,这是一种专为 RAG 设计的“最大-求和”效用函数。它成功将 Shapley 值归因的计算复杂度从指数级降至线性级别,其 token 消耗仅为暴力计算法的 6%–7%,却能保持 0.79+ 的 Kendall-τ 强相关性与 0.9+ 的人工标注一致性,为生成式搜索的“按贡献付费”模式提供了一个可实际部署的算法基础。

图片图片

整体流程遵循“检索 → 生成 → 归因”三阶段,将三条大型语言模型的链路进行解耦,即使是黑盒模型也可适用。

三、方案速览

方案基于一个关键直觉:“同一要点内的文档相互竞争,不同要点间的文档则彼此协作”。通过 max 操作天然去除冗余信息,在满足公平公理的同时,确保了计算过程的可分解性。

图片图片

图片

上图横轴为 token 消耗量,纵轴为与人工标注的 Jaccard 一致性指数:MAXSHAPLEY 仅用 6% 的 token 消耗,其精度就已追平完全版 Shapley 的 0.83 水平,而 KernelSHAP 需要 8 倍以上的 token 量才能达到相近效果。

四、实验亮点

数据方面使用了HotPotQA、MuSiQUE、MS MARCO(经过人工二次标注,共30题以降低噪声)。评估指标涵盖 Jaccard@K、Kendall-τb、token成本/美元/运行时间。

在达到相同 Jaccard 指数时,MAXSHAPLEY 比 KernelSHAP 节省 8–10 倍的 token 消耗;

Kendall-τb > 0.79(强相关),Jaccard > 0.9;

在完整版 MuSiQUE 数据集(共2417题)上表现依然稳健,即便随着“跳跃数”增加,性能略有下降但并未崩溃。

五、落地补偿机制

直接分成:平台从其订阅或广告收入中,按归因比例划拨一定金额给内容提供方。此模式适用于学术出版、企业知识库等供应方有限的场景。 广告代理:将来源方的广告素材,按其归因权重投放在生成式结果页面上,沿用现有广告生态,平台无需自建支付通道。 二次拍卖:以 MAXSHAPLEY 计算出的分数作为内容方的“被动出价”,与广告主在同一竞价市场中进行拍卖,平台收取结算差价。

六、局限性与未来方向

使用 LLM 作为评估者对措辞敏感,即使是温度参数设为 0 也非完全确定;未考虑多来源交叉验证带来的“置信度叠加”效应;目前的方案将关键要点视为同一扁平层次,未来可引入层次分解以处理更复杂的推理逻辑;对抗风险防范:内容农场可能通过制造“AI 偏好型文本”来套利,需要配合内容质量过滤机制。

资源传送门:

MAXSHAPLEY: Towards Incentive-compatible Generative Search with Fair Context Attribution
论文地址:https://arxiv.org/pdf/2512.05958


来源:https://www.51cto.com/article/831536.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《无限轮回》萌新必备小技巧
游戏攻略
《无限轮回》萌新必备小技巧

《无限轮回》新手入门指南:高效开局与核心机制解析 你是否渴望在《无限轮回》中快速成长,成为团队中可靠的伙伴?对于新手而言,正确的开局思路至关重要。切忌盲目拾取未知物品,一个不当操作——例如过早将关键法器“葫芦”交给队友——就可能打乱核心输出的成长节奏,导致团队覆灭。作为团队辅助,你的首要目标并非打出

热心网友
04.03
累计突破82万!《宝可梦Pokopia》Fami通销量四连冠
游戏资讯
累计突破82万!《宝可梦Pokopia》Fami通销量四连冠

Fami通最新销量榜出炉:日本实体游戏软件销量数据解读(2026年3月16日-22日) 日本游戏市场每周的风向变幻,总是由那些长青的头部作品与新晋热作共同书写。根据权威媒体《Fami通》最新发布的实体销量估算数据,在2026年3月16日至3月22日这一周,市场格局呈现出清晰的趋势:任天堂Switch

热心网友
04.03
王者荣耀s43射手梯度排行
游戏攻略
王者荣耀s43射手梯度排行

王者荣耀S43赛季射手梯度排行榜单 新赛季的射手格局已基本定型,可以用一句话概括核心趋势:敖隐与蚩妩两位英雄构成双星闪耀的T0阵营,综合强度堪称断层领先。紧随其后的T1梯队中,公孙离、艾琳、孙权、元流之子(射手)等英雄各怀绝技,或凭借极致的灵活拉扯掌控战局,或依赖无解的持续输出主宰团战。而处于T2梯

热心网友
04.03
《长生:天机降世》游戏玩法介绍
游戏攻略
《长生:天机降世》游戏玩法介绍

长生:天机降世怎么玩:从入门到精通的全面攻略 《长生:天机降世》是一款深度策略卡牌手游。其核心玩法在于通过策略性的卡牌组合与角色搭配,在限定回合内,最大化自身伤害输出并在竞技排行榜上取得优势。想要玩好这款游戏,深入理解其底层机制是关键第一步。 《长生:天机降世》新手入门与高阶玩法解析: 一、游戏核心

热心网友
04.03
本来生活如何查物流信息
手机教程
本来生活如何查物流信息

在本来生活平台下单购物后,及时查询并跟踪物流信息,可以帮助我们准确掌握包裹的预计送达时间,提前做好收货安排。那么,在本来生活应该如何高效地查询快递物流状态呢?下面为您详细介绍几种常用方法。 进行网络购物之后,用户最关心的问题通常是“我的包裹现在运送到哪里了?”实时了解物流进度,不仅能减少等待期间的焦

热心网友
04.03