奇富科技发布信贷AI评测基准：告别“黑箱”竞技

首页/科技数码/文章详情

奇富科技发布信贷AI评测基准：告别“黑箱”竞技

时间：2026-01-12 20:55

撰文| 郝鑫编辑| 王潘奇富科技，为何此刻站出定义标准？这家科技公司的底气来自于哪里？是否有能力为行业定义一把公认的“标尺”？要回答这些问题，不妨先审视行业正面临的真实挑战。过去三年，大

撰文| 郝鑫

编辑| 王潘

奇富科技，为何此刻站出定义标准？这家科技公司的底气来自于哪里？是否有能力为行业定义一把公认的“标尺”？

要回答这些问题，不妨先审视行业正面临的真实挑战。

过去三年，大模型如风暴般席卷了信贷领域，掀起了一场以“效率革命”为名的技术浪潮。

在这过程中，逐渐形成了由互联网大厂引领、传统银行跟进和垂直玩家深耕的三足鼎立的格局。

随着大模型技术的收敛，信贷行业也陷入了“冷静期”。技术上的先进性与落地效果间形成了鸿沟。当众多厂商纷纷标榜自身的AI能力领先，一个根本性问题日益凸显：究竟该如何客观衡量，谁的技术更扎实、更可信？

近日，奇富科技给出了自己的答案，联合复旦大学与华南理工大学研究人员，共同发布首个面向信贷场景的多模态评测基准FCMBench-V1.0。

该基准基于真实信贷业务场景，抽象科学问题，设计多模态评估任务与挑战，以期构建来源于业务、服务于业务的实用性评测体系。同时，奇富科技宣布开源数据集与评测工具，为行业共建AI基础设施提供关键支撑。

至此，热闹纷繁的信贷AI赛道，终于有了一把清晰的“标尺”和一条公认的“基准线”，技术实力高低，终于有了可比较的刻度。

信贷AI的“无标之痛”

金融行业素有“练兵场”之称，一方面是场景下的各种需求比较复杂，所涉及的流程繁多；另一方面是对数据保密性、审核合规和交易安全等指标的低容错率。

奇富科技多模态负责人杨叶辉博士向我们介绍，“信贷审核涉及几十类证件、每类证件有多种模板、审核流程涉及多个环节和任务，以及多证件的交叉推理验证，用户拍摄的场景和上传的文件也多种多样。信贷场景的这些挑战对于多模态大模型的能力是非常好的试金石。”

但当信贷AI从演示验证走向深度应用时，却遭遇了一系列痛点问题。最突出的表现是大模型对专业场景的失焦，大模型往往更注重通用的能力，而缺乏了对信贷场景的适配性。

例如，一般行业评测多聚焦于“图片识别”或“文本分类”，但信贷审核员最头疼的，并非识别“这是不是一张图片”，而是判断这张身份证与当前操作人的其他材料，历史留存证件是否一致，且证件本身是否可疑。所谓的专业任务，是从数百页银行流水中识别出隐性负债、可疑的关联方交易等，这需要深度的领域知识和复杂的推理逻辑，通用大模型经常出现失灵。

数据的合规问题，在信贷行业尤为棘手。最需要被衡量的风控模型，其训练数据因涉及用户隐私、企业商业机密，无法被共享。这导致了一个悖论，学术界无法获取高质量脱敏的真实信贷数据，研究只能停留在真空环境下，训练出的模型沦为“纸上谈兵”。

工业界则因为数据敏感性，只能进行“黑箱竞赛”，各家均宣称自家模型在私有数据部署效果卓越，却无法在第三方统一的数据集上同台竞技，不仅信任无法建立，行业也无法通过统一标准测试水平。

即便走过了模型、数据的测试，在真实生产环境中还是会遇到许多突发和个性化的问题。例如，模型在执行扫描PDF、高清标准照等相对标准化任务上表现优异。但在真实世界中，客户上传的营业执照可能边缘有褶皱，因年份过长可能出现褪色；手持身份证照片可能背景杂乱、光线昏暗；远程面审时，网络延迟和视频压缩会导致语音断续、面部模糊。这些在实验室被过滤掉的噪音，恰恰是线上场景的常态，专门针对此类场景的鲁棒性测评目前严重缺失。

专业场景失焦、数据之困和鲁棒性盲区，三大痛点交织，共同将行业推入一个负向循环。

机构和企业选型时只能看Demo和通用打榜成绩，存在一定盲目性。各家都在自己的“孤岛”上重复建设相似能力，并宣称自己领先，市场充斥着劣币驱逐良币的担忧。因鲁棒性在上线前得不到充分检验，许多项目在落地效果不及预期，投入产出比低下。

现阶段，信贷行业呈现出投入大、选型盲和验证难的困境，大量资源被消耗在解决相同的基础问题上。要打破此循环，亟需一个统一的“标尺”和一场评估范式革命。

FCMBench，一把来自“战场”的尺子

为了解决行业的普遍性问题，奇富科技在设计FCMBench时设定了三大核心目标。

强调实用性，与真实信贷审核流程对齐，提供标准化评估指标。重要的是，理想情况下，若模型在该基准测试中取得良好成绩，可直接应用于实际场景，而不仅仅是满足实验室指标。

据悉，FCMBench-V1.0构建了与真实银行审核流程高度一致的评测框架，涵盖18类核心信贷证件，如身份证、收入证明、银行流水、房产证等，包含4043张合规图像和8446个测试样本，问题覆盖信贷审核全链条。

评测尽可能全面覆盖所有实际应用场景和需求。其创新的“感知-推理-鲁棒性”三维评测体系，对信贷AI模型所需的实战核心能力提出了全面的考核。

感知维度包含文档类型识别、关键信息提取、图像质量评估三大任务，考验模型从复杂图像中提取基础信息的能力；推理维度涵盖一致性校验、有效性校验、数值计算、合理性审核四类任务，模拟信贷员交叉验证信息、判断材料有效性的核心工作；鲁棒性维度则设置十类真实采集干扰，如倾斜拍摄、光照不均、反光等，测试模型在真实应用场景中的稳定性。

在数据层面，在保证多样性的基础上，满足合规性要求。数据采集支持单图像和多图像格式中的一种或多种证件，涵盖信贷审核中遇到的各类数据类型。以真实信贷材料为基础，在保证文档格式高度仿真的同时，手动生成一系列信贷相关证件，其中所有敏感信息均为虚构。

整体看下来，FCMBench取之于奇富科技常年的业务经验和数据积累，并将成果直接用于实战场景。首个版本做到了“对症下药”，其推出就是为了针对性地解决“无标可依”“无据可考”的AI落地痛点，让AI模型的性能评估有统一的标尺。

FCMBench并非是一个孤立的现象，而是整个金融行业转向实用性的信号。去年，一些大厂已经率先行动起来。

蚂蚁数科同样认同专业性和统一的标准。其构建的金融任务分类体系，包括了六大类、六十六小类场景，覆盖银行、证券、保险、基金、信托等金融全场景。此外，蚂蚁数科还联合行业内专业机构推出Finova大模型金融应用评测基准，深度考察智能体能力、复杂推理以及安全合规能力。

蚂蚁消金基于通义千问基座训练“消费信贷垂类风控大模型”，将任务详细拆解为授信、审批、专项优化反欺诈和信用评估等指标。京东科技则依托供应链生态，强化票据、合同、仓单等多模态单据的结构化识别与交叉验证，针对金融语义进行了专项重构。这些操作都在一定程度上，弥补了通用大模型“专而不精”的劣势。

落实到业务上，各家的目标也高度一致，追求价值落地。无论是蚂蚁的秒级授信、京东的供应链金融快审，还是奇富科技的AI全流程审批，本质上都是将模型性能指标转化为，包括坏账率降低、客群覆盖扩大、审核人工成本节约等实际业务价值。

通过对23个主流多模态模型的全面评测，FCMBench展现出了专业的鉴别能力。在FCMBench的首轮评测中，谷歌的Gemini 3 Pro（64.61）位列商业模型榜首，阿里云Qwen3-VL-235B（57.27）成为最佳的开源基模。基于奇富实际业务场景研发的信贷垂类多模态大模型，Qfin-VL-Instruct以64.92的F1分数斩获综合第一。

测试结果显示，Qfin-VL-Instruct感知任务精准度行业顶尖，一致性校验能力突出，低延迟部署适配在线审批场景，是专为信贷审核优化的“场景化模型”。

其中，在感知任务维度实现全面领先，文档类型识别、关键信息提取和图像质量评估三个子指标均超过Gemini 3 Pro。在有效性校验、数值计算、合理性审核等任务上，还可通过启用轻量级思维链推理进一步缩小与Gemini 3 Pro的差距。

Qfin-VL-Instruct的成绩，证明了通用模型能力无法完全覆盖专业场景，通过“场景数据+专业领域知识”积累能够突破现有模型的上限，奇富科技在垂类模型上的成功，也为行业指明了一条可复制的路径。

从“技术竞技场”到“行业共同体”

目前，奇富科技宣布开源了FCMBench的数据集与评测方法，有关FCMBench的数据集、评测工具以及Qfin-VL-Instruct的试用接口已开放获取。

FCMBench的开源，标志着金融AI发展逻辑的一次根本性转向：信贷行业正从各家闭门的“黑箱竞赛”，走向基于公共标准的“生态共建”。

这一举措将彻底打破领域壁垒，推动信贷AI从“单点优化”迈向“产学研协同创新”。高质量、合规的开放数据集，让学术界拥有了触及真实金融问题的“合法接口”。产学研合作得以从务虚的技术对接会，转向务实的问题攻坚，共同攻克“可解释AI”“小样本鲁棒性”“公平性验证”等既具学术深度，又攸关业务落地的真问题。

拥有可量化、可复现的评测工具后，金融机构的技术评估体系得以重构。选型决策将从依赖厂商的“案例包装”与“榜单大比拼”，转向客观的能力跑分与场景适配度分析，极大降低决策风险与试错成本，并倒逼大模型厂商回归价值竞争本质。

公开基准如同一面“照妖镜”，迫使所有厂商在同一把“尺子”下接受检验。这意味着以前公说公有理，婆说婆有理的局面即将终结。当各家同拿一份考卷答题，坐在考场答题时，谁的分数更高，成绩则一目了然。

金融AI的终局并非技术炫技，而是建立稳固的信任体系。公开、透明的评测基准，正是建立这种信任的第一步。它为信贷行业未来建立AI模型合规认证、金融垂类领域能力测试和监管标准，都提供了有效的思路和实践基础。

杨叶辉博士告诉我们，“FCMBench -V1.0只是一个开始，未来会持续完善评测基准，希望打磨好一把公平、公正，面向实战需求的尺子”。

这不仅仅是一次技术开源，更是一次行业共识的重塑。只有当技术能力可衡量、可比较、可验证时，信贷AI才能进一步走向技术应用的深水区，推动整个行业走向更安全、可靠、可控的智能化未来。

微信号｜TMTweb

公众号｜光子星球

别忘了扫码关注我们！

来源：https://www.163.com/dy/article/KJ3NAQS80552GIEM.html

金融鲁棒性奇富科技评测基准信贷ai 黑箱竞技商业银行

上一篇力鸿一号亚轨道首飞成功，搭载返回式激增材制造载荷 下一篇香港大学举办诺贝尔英雄论坛：引领科学与未来

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

奇富科技发布信贷AI评测基准：告别“黑箱”竞技

相关推荐

同类最新

宇树验证具身智能新趋势核心战场不止于模型

智元精灵G2机器人产线直播完成64828件成功率99.99%

纯电动Cayenne首秀保时捷驾驶中心全国路演

AI工具能否成为高价志愿咨询纠纷的破局之道

头部企业全产业链布局锂电池回收循环