腾讯开源金融大模型幻觉专业评测方案finLLM-Eval

时间：2026-06-13 11:55

腾讯开源finLLM-Eval框架，提出基于真实投资者提问的金融大模型幻觉评测方案，自动抽取“标的×时间×指标”三元组并调用金融知识库全自动校验，无需人工标注，实现事实准确性与逻辑一致性量化评估。

金融大模型落地面临的最大挑战是什么？不是算力瓶颈，也不是数据匮乏，而是“如何验证其生成内容的真实性”。金融行业历来强监管、高容错门槛，模型一旦虚构某个财报数字，可能引发严重后果。最近，腾讯开源了一套名为 finLLM-Eval 的评测框架，专为解决金融领域的幻觉检测难题——其最突出的突破在于：彻底摆脱了人工标注标准答案的依赖。

该框架的创新之处在于提出了一种全新的真实性评测范式：基于真实投资者提问语料，自动解析“标的×时间×指标”三元组，并调用内部金融知识库完成全自动校验。换言之，评测过程中，只需输入问题，系统即可自行判断模型是否存在虚构信息。这直接破解了金融场景下缺乏权威评判基准的行业困局。

本次开源的版本，核心能力集中在两大板块：

逻辑一致性 & 事实准确性评估模块——提供完整可运行的工程代码、内置示例评测数据集，用户还可自由扩展自定义测试样本。系统运行后自动输出综合得分、错误类型分布图、千字幻觉发生率等多维量化指标，一眼看清模型在哪些类型问题上出错。
端到端金融数据准确性比对模块——给出技术实现方案，便于开发者快速对接自有数据源。

核心功能亮点

聚焦大模型生成内容质量评估

事实准确性评估：精准识别模型输出中是否存在虚构信息、事实混淆或时空错位。例如，模型声称“茅台2023年净利润700亿”，实际数据是多少？框架可自动比对，确保与真实市场状态一致。
逻辑一致性评估：深度检验推理链条是否符合金融基本原理和市场运行规律。模型给出的投资建议是否违背基本估值逻辑？框架会逐条拆解，拦截那些看似通顺但暗藏矛盾的结论。

零标注金融数据真实性验证：这是最具突破性的能力。无需人工编写标准答案，而是基于真实投资者提问，自动抽取“标的×时间×指标”三元组结构化事实，直接调用内部金融知识库完成校验，彻底砍掉了人工标注这一最耗时的瓶颈。

AgentAsJudger 智能评测机制：全流程无人值守。AI Agent 自主完成事实抽取、逻辑路径还原，随后与 RAG 检索结果或权威金融数据库进行交叉比对。实测准确率超过96%，意味着大部分场景下，机器评测已足够可信。

后续项目将持续演进，计划新增非金融类指标验证能力、错误归因分析模块等功能。可以说，这套框架为金融 AI 的合规落地补上了关键拼图——让大模型在金融业务中，不仅说得漂亮，更要说得靠谱。

来源：https://www.php.cn/faq/2003700.html?uid=1246273

大模型

上一篇小米汽车多连屏显示专利提升车载稳定性 下一篇一加多款机型销量公布 Ace 6至尊版近5万部

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时，同比增长5 0%。充换电服务业用电增速高达48 8%，信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

追风者冰川360S25液冷散热器售价429元，三联一体风扇便捷安装，冷头小体积纯铜底座噪音18dB，风扇转速300-2000RPM、风量75CFM、静压2 96mmAq，五年质保漏液包赔。

科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映，GooglePlayServices后台耗电异常，电量占比最高达99 97%，远超正常水平，严重影响续航。目前故障原因不明，谷歌尚未发布官方声明。

科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足盼新CEO改进

罗永浩批评苹果iOS27创新不足，称仅有双iPhone同号、音量分离等数十项细节改进，认为库克时代缺乏突破性创新，股市虽好但消费者只能被迫接受挤牙膏式升级。

科技数码 · 2026-06-29

年国产车出口710万辆，两家车企销量破百万

2025年国产汽车出口总量达710万辆，同比增长21%。奇瑞以134万辆居首，比亚迪105万辆次之，上汽乘用车出口占比60%最高，长城出口51万辆。吉利、长安等主流品牌同步增长，小鹏、零跑等新兴品牌海外拓展加速。