金融AI四道业务真题出题人猜不到最优解_AI热点日报

金融AI四道业务真题出题人猜不到最优解

类型：热点整理2026-07-02

终于等来了一个让人眼前一亮的AI比赛。 AFAC2026金融智能创新大赛，并不是那种只会让你刷个排行榜、然后转头就忘的Benchmark。四道赛题全部脱胎于真实的金融场景，每道题都切中要害：盯盘面——识别机构交易行为与资金流向；啃文档——把复杂的保险PDF变成结构化的Markdown；做实验——在

终于等来了一个让人眼前一亮的AI比赛。

AFAC2026金融智能创新大赛，并不是那种只会让你刷个排行榜、然后转头就忘的Benchmark。四道赛题全部脱胎于真实的金融场景，每道题都切中要害：

盯盘面——识别机构交易行为与资金流向；啃文档——把复杂的保险PDF变成结构化的Markdown；做实验——在稀疏反馈下完成自动化实验设计；读长文——控制Token成本，对金融长文本进行精准问答。

没错，这次挑的，正是金融这个“地狱级”的训练场。

有意思的是，到了今天这个阶段，金融领域的垂直任务对大多数模型来说依然是一座大山。就拿保险文档还原成Markdown这件事来说，一旦遇到大图片、大文档，模型在相关Benchmark上的平均分甚至掉到0.1以下，即便是GPT、Gemini这样的顶尖多模态模型，也常常束手无策。

为什么垂直场景的落地这么难？

归根结底，这已经不是简单靠参数Scaling就能解决的工程问题了。这是Agent层需要啃下的硬骨头。

而这，也正是AFAC2026大赛的核心主张——回归基础研究，一起探索模型如何在真实约束下，交付真正的产业价值。可以说，这可能是今年金融AI领域最值得关注的一场赛事。

2026金融AI武道大会

今年的挑战组设置了四个分会场，先逐一看看。

赛题一：市场参与者交易行为识别与资金流向分析

普通投资者面对盘面时，最大的无力感在于：你永远不知道屏幕另一头那笔大单的真实意图。股票突然拉升，大单涌现，盘口挂出巨量买单。你捕捉到K线异动，准备追入风口——但对面真正的目的，可能只是骗你进来接盘。

股市里藏着人。如何更好识别交易行为，始终是市场的天然刚需。但难点也恰恰在此：在这片黑暗森林里，买卖双方都在绞尽脑汁揣测对方意图。结果就是持续的对抗与升级：当某些资金行为被识别出来，执行方会反过来隐藏自己，甚至利用市场对这些信号的认知进行反向博弈。

蚂蚁集团财富保险事业群投研投顾技术负责人、AFAC大赛出题家纪韩认为，这正是这道赛题最有趣的地方。资金识别这件事，从来不只是数学题。

从交易角度看，挂单、撤单、拆单，本质上是你与对手盘之间的一种沟通。这里面夹杂着大量意图，包括误导和制造假象。最强的选手，赢在对社会、商业乃至人性的理解。

如今大模型的出现，为这场博弈提供了新武器。它能从高频数值数据中发现人类尚未总结出的隐含模式。谁能优先利用并封装好这项能力，谁就能在股市中赢得真金白银。

但只调用模型远远不够，选手必须依托harness框架来设计机制。L2行情数据量级庞大，如果硬塞进模型，哪怕是支持1M上下文的窗口也会直接爆掉，导致注意力机制失效。参赛者需要提前编写规则或代码，或者让模型调用工具，先把数据处理到可观察、可理解、可判断的状态。在harness的实现层面，这隐含了非常复杂的工程要求。

场景之外，评测规则也很有意思。这个赛题并没有强调“成本优化”。很反直觉，对吧？毕竟一提到落地，大部分人最关心的就是成本。对此，纪韩的解释是：如果策略真的有效，其带来的潜在收益增强，可能让成本显得微不足道。这是一场博弈，当你在纠结成本时，你的对手可能正在倾尽全力调用最好的模型。

每个场景都有自己的价值函数，“成本”并非永恒的关键变量。看盘这件事，首要目的就是赢过对手。

赛题二：复杂金融文档还原挑战

参赛选手需要设计并实现一个端到端的文档解析系统，将一张金融文档图片，完整、准确、有结构地转成Markdown。

注意三个关键词：完整、准确、有结构。金融文档不是普通的小作文。一份保险文档，通常包含多级标题、密集表格、脚注和批注，每项信息都必须100%准确。

为什么要做这件事？以保险表格为例，寿险产品需要精准告诉用户，在某年某月能领到多少钱。这个数字从哪来？表格查询。经纪人拿到需求后，凭借直觉定位到第15XX页的某一张表、某一个单元格，查出用户45岁时能领多少钱。但用户数量庞大，不可能每次有人问都让经纪人亲自查页数、找单元格。

机构当然希望把这些文档结构化。但问题是，金融文档大部分是图片或PDF，普通OCR能认出字，却没有智能。这引出了阅读顺序的问题——人能一眼判断阅读顺序，机器却可能先读右栏再读左栏，文字都认对了，意思却完全乱掉。结构，其实是语义极其重要的一部分。

大模型能很好地解决这个问题，但也带来了新的约束——上下文。金融文档的超大图可能有几亿像素点，光输入就会撑爆窗口，何况输出还可能长达十几万字。不能指望一个模型硬吞整张图。因此需要一套端到端Agent工作流：先切分，再调用小模型分多次解析，最终拼回一份保真的Markdown。

在蚂蚁集团财富保险事业群保险智能科技资深总监、AFAC大赛出题家续兴中看来，拼接这套SOP的过程，有点像福尔摩斯办案：面对一个复杂系统，当需要提升效率或解决训练不稳定的问题时，必须从基础研究的角度去拆解和分析。这要求研究员具备整体性思考能力，能精准分析、定位和归因，就像侦探破案一样。

值得注意的细节是，赛题提供的模型底座是FinixDoc-VL，专门针对金融文档优化的多模态模型。FinixDoc由蚂蚁保算法团队研发，核心模型基于4B级Qwen3-VL训练。团队还构建了金融文档难例评测榜单FinixDocBench，并开源了部分子集，覆盖真实业务中的低质量、超长文档和密集表格等难点场景。在该榜单中，FinixDoc-VL取得了81.43的综合得分。

赛题三：稀疏反馈下的自动化实验挑战

这道题比较与众不同，更像在金融领域里做科研。参赛选手需要让Agent像研究员一样开展机器学习实验，完成金融场景下的图学习任务。

很多人以为AI比赛就是选个好模型，把数据丢进去训练。但真实情况更像做菜——你调一次火候，尝一口；盐多了下次少放，肉老了下次缩短时间。但问题是，每尝一口都是成本，无论是食材还是时间。你的尝试次数有限，最后还必须端出一盘让客户满意的菜。这就是“稀疏反馈下的自动化实验”的核心理念。赛题要求以金融图学习为沙盒，让Agent在预算限制的硬约束下，尽可能优化任务表现。

读到这里，可能有人会联想到Vibe Coding圈的一个说法：模型越大，成本反而越低。大体逻辑是，聪明的模型在执行过程中犯错更少，输出的Token也更少，即便API单价更高，完成单项任务的总成本反而更低。但赛题三的角度并不完全一样。

清华大学电子工程系副教授、AFAC大赛出题家姚权铭多年深耕AutoML，他指出：金融图学习并非大模型天然擅长的形态。其搜索空间往往缺乏连贯语义，通用模型的语言先验在这里帮不上太多忙。

现在是Scaling Law为王的时代，大家很容易产生一种错觉：AI似乎可以包容万物。问题是，仅仅是“能用”真的够吗？大模型本质上给所有人施加了一个共同的加速度。但在竞争激烈的市场环境下，做同样的事情，如果对手消耗的Token只有你的十分之一，那你的市场份额马上就会被动摇。

优秀的方案未必来自更贵的API。如果有一个设计更精良的专业模型，或许3B参数就能搞定。AGI可以为了“故事”随便烧钱，但垂直场景必须追求极致。对从业者来说，这件事则更加现实：一个人被招进来，有管理、状态、成本等问题。如果这个人仅仅在AI能力覆盖的范畴内做事，很快会被取代。相反，一个能解决AI极限之外问题的人，未来会有更长的发展空间。

赛题四：金融长文本Agent的动态记忆压缩与高效问答挑战

这道题可以和赛题二放在一起理解——两者都死磕“上下文”。赛题二考验输入，赛题四考验输出。

出题方会提供海量金融长文档，参赛选手需要让AI基于这些上下文精准答题。难点有两个：第一，结构极度复杂。金融文件里充斥着大量交叉引用、表格、附录、批注。一个否定词、一个限定条件，或者附录里的一处计算口径，都可能让最终答案天差地别。第二，对“追溯性”要求极高。金融任务出错的代价十分沉重。用户绝不能只接受一个“看起来合理”的答案，还必须知道答案来自第几页、第几条。

怎么做？单纯切片检索，很容易丢失上下文关联；把全文硬塞给模型，幻觉又会大幅增加，极易把A产品的问题答成B产品的条款。更现实的方案，是通过Agent工程进行上下文管理。赛题建议的SOP如下：

文档预处理：PDF或文本先解析成可检索的结构，按章节、段落、表格切开。
文档组织与索引：按领域构建关键词索引和结构化字段索引。
题目解析：识别题型、关键词、实体、时间、金额、指标和候选文档。
证据检索：只取最相关的几段，而不是整本书。
推理作答：根据证据判断选项真假。
答案校验：单选只能一个，多选要列全，判断题填A或B。
结果汇总：生成符合提交格式的文件。

坦白讲，第一次看到这套SOP时，内心是有疑惑的。毕竟现在GPT+RAG基本已经能做到没有幻觉，为什么不直接接入最前沿模型的API呢？对此，复旦大学助理教授、博士生导师、AFAC出题家郭宏成解释了一个作为消费者未曾考虑过的视角：上下文成本控制在B端是另一个量级。

金融机构面对的不是一次性问答，而是海量文档。它们需要持续进行合规审查、投研分析、客服辅助和内部知识问答，这些材料动辄几百页。如果每个请求都直接塞进大模型，单次看只是多消耗一些Token；但放到日级、月级乃至机构级的调用量上，账单会沦为天文数字。

这也是为什么赛题四将“Token消耗”纳入评测维度之一。

以上，就是此次AFAC大赛的四条赛道。信息量确实有些爆炸——每个评测指标的背后，都隐藏着对真实业务需求的具体思考。问题本身的选取也极具品味，全部是开放式问题，没有哪一道是光靠堆算力就能暴力破解的。最好的创新，往往就诞生在这种混沌地带。

金融AI：自带护城河的黄金赛道

如此有含金量的赛题，究竟是怎么头脑风暴出来的？答案很简单：这是蚂蚁亲自下场组的局。

AFAC2026大赛背后，站着一个兼具产业一线经验与学术前沿视野的赛题委员会。

这个组合极具张力。蚂蚁集团副总裁、财富保险事业群CTO、大赛组委会主席尹俊指出：AI发展到今天非常火热，但真正落到行业——尤其落到金融行业——难度依然很大。首先，受限于合规、风险控制等要求和挑战，金融+AI的具体形态还有待摸索。其次，金融AI能创造的价值多少仍未被证明。投入后能否产生足够回报？长期来看上限能做到什么程度？这些都不像LLM叙事中那样，有AGI这个标准答案。

金融机构有经营压力，价值、合规和风险上的担忧，影响行业快速拥抱AI。学术机构不存在机会成本导致的“转型悖论”，却又很难深入介入真实金融场景，因为保密性要求更高。AFAC大赛的出现，恰好提供了一个尽可能贴近真实场景的“沙盒”，从而将产业和学界连接在一起。当“黑盒”里的Know-How被拆开，真实业务数据被公开，产学研便能围绕同一个靶心共同创新。

换个角度看，也许正是这些难点，才让垂直场景AI拥有了独特魅力。这是一个自带护城河的赛道。没有通用AI那么卷，不需要金字塔顶尖水平的AI履历要求，复合型人才能凭借自己对金融行业Know-How，形成另一种竞争力。

蚂蚁支持这件事，已是第四年。AFAC大赛自2024年首届举办以来，累计吸引超1.5万支队伍、近5万名选手，覆盖600余所高校与400余家企业。它由中国计算机学会、北京大学、蚂蚁集团、NVIDIA等近30家机构联合发起，现已成长为全国乃至全球顶尖的金融智能赛事之一。

“人人可参与”的Agent时代

这一点，从赛题设计上也能找到印证。交易行为识别、金融文档还原……四道题方向各异，却指向同一条线索：AI行业，终于到了“人人可参与”的时代。预训练时期，Scaling Law对算力的要求近乎恐怖，小团队连巨头的脚趾都摸不到。但今年的AFAC大赛，完全是另一副风景。

几乎每位出题家都坦言——无法预料最佳实践，也猜不到冠军会拿出什么方案。这背后是同一种共识：“大力出奇迹”的暴力解法，在Agent时代走不通了。你不可能把所有工程能力都训练进参数里。计算资源的消耗太恐怖，模型还不一定会更聪明。

相比LLM，Agent更像一个工程问题。它需要可复现的洞见，需要尊重业务约束。而做好这件事的方法论，在各行各业都远未收敛。

一般而言，技术发展会经历四个阶段：孵化期、试错期、爆发期和评估期。手机、通信、光电乃至量子计算，概莫能外。不同阶段，行业的发展范式也有不同特点。性能快速爬升阶段，资源更重要；技术孵化期，则需要重新定义问题，也是最需要人才多样性的时候。

经历了深度学习、Transformer、GPT时刻的一路狂奔，AI的产业周期终于轮回到了Agent落地的孵化阶段。在这里，竞争回归研究层。Taste，决定天花板。

2026年最有看点的金融AI武道会，已经开赛了。

来源：https://www.163.com/dy/article/L0OU59US0511DSSR.html

ai

延伸阅读

补充最近整理过的热点入口。