腾讯发布FinLLM-Eval：大模型金融场景幻觉专业评测方案

时间：2026-01-19 21:55

腾讯正式开源 finLLM-Eval——一套面向大模型在金融领域应用的幻觉专项评估框架。该项目首次提出无需依赖人工标注 GroundTruth 的金融数据真实性评测范式，突破性地解

腾讯开源 finLLM-Eval：大模型金融场景幻觉专业评测方案

腾讯正式开源 finLLM-Eval——一套面向大模型在金融领域应用的幻觉专项评估框架。该项目首次提出无需依赖人工标注 GroundTruth 的金融数据真实性评测范式，突破性地解决了金融场景下缺乏权威评判基准的行业难题，为AI技术在强监管、高容错门槛的金融业务中稳健落地提供了关键基础设施支撑。

本次发布的开源版本涵盖以下核心能力：

逻辑一致性与事实准确性评估模块：提供完整可运行工程代码、内置示例评测数据集，并支持用户灵活扩展自有测试样本；系统自动输出详尽评估结果，包括综合得分、错误类型分布图、千字幻觉发生率等多维量化指标。
端到端金融数据准确性比对模块：技术实现方案

核心功能亮点

聚焦大模型生成内容质量评估

事实准确性评估：精准识别模型输出中是否存在虚构信息、事实混淆或时空错位等问题，确保内容与真实金融市场状况严格对齐。
逻辑一致性评估：深度检验模型推理链条是否契合金融基本原理、市场运行规律及主流投资方法论，有效拦截违背常识或理论矛盾的结论。

覆盖大模型全流程应用效果评估

零标注金融数据真实性验证：基于真实投资者提问语料，自动解析“标的×时间×指标”三元结构化事实，调用内部金融知识库完成全自动校验，彻底摆脱人工攥写标准答案的瓶颈。

AgentAsJudger 智能评测机制

全流程无人值守：由AI Agent自主完成事实抽取、逻辑路径还原，并与RAG检索结果或权威金融数据库进行交叉比对，实测准确率超96%。

后续，项目将持续演进 finLLM-Eval，规划新增非金融类指标验证能力、错误归因分析模块等功能。

想获取项目源码，请访问其开源仓库。

来源：https://www.php.cn/faq/2003700.html?uid=1246273

上一篇禾赛科技创始人再创业，Sharpa打造通用机器人新前沿 下一篇Kilo推出AI驱动Slack机器人，聊天消息直接生成推送代码

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-09

元折叠屏手机推荐荣耀Magic V6高效办公首选

荣耀MagicV6在7000-8000元预算区间，国补后8499元。机身重约219克，厚度8 75毫米，内外屏高亮度且支持4320HzPWM调光。电池最高7150mAh，配80W有线快充。搭载骁龙8至尊版，支持PC级三分屏等AI办公功能，通过50万次折叠认证。该机以轻薄、长续航和高效办公能力成为该价位段主力机优选。

科技数码 · 2026-07-09

元折叠屏手机哪款好荣耀Magic V6值得关注

荣耀MagicV6定位8000元档位，整合轻薄手感、续航快充与大屏效率。采用鲁班铰链与2800MPa盾构钢，支持IP68 IP69及4米防水，通过50万次折叠认证。搭载骁龙8至尊版与MagicOS10 0，提供PC级三分屏、AI翻译等功能。影像配备5000万主摄、6400万潜望长焦及5000万超广角，防抖出色。

科技数码 · 2026-07-09

年电池续航最长手机，大电池快充精选推荐

这款荣耀X80ProMax配备了11000mAh第四代青海湖大容量电池，续航能力极为强劲，令人安全感十足。具体来说，8GB+256GB版本国补后仅需1869 15元，而12GB+512GB版本国补后也仅需2379 15元，性价比极为出色。同时它还支持快充、反向充电、防摔防水以及AI智能体验，特别适合通勤、出差等重度用户长期使用。