终于等来了一个让人眼前一亮的AI比赛。
AFAC2026金融智能创新大赛,并不是那种只会让你刷个排行榜、然后转头就忘的Benchmark。四道赛题全部脱胎于真实的金融场景,每道题都切中要害:
盯盘面——识别机构交易行为与资金流向;啃文档——把复杂的保险PDF变成结构化的Markdown;做实验——在稀疏反馈下完成自动化实验设计;读长文——控制Token成本,对金融长文本进行精准问答。
没错,这次挑的,正是金融这个“地狱级”的训练场。

有意思的是,到了今天这个阶段,金融领域的垂直任务对大多数模型来说依然是一座大山。就拿保险文档还原成Markdown这件事来说,一旦遇到大图片、大文档,模型在相关Benchmark上的平均分甚至掉到0.1以下,即便是GPT、Gemini这样的顶尖多模态模型,也常常束手无策。
为什么垂直场景的落地这么难?
归根结底,这已经不是简单靠参数Scaling就能解决的工程问题了。这是Agent层需要啃下的硬骨头。
而这,也正是AFAC2026大赛的核心主张——回归基础研究,一起探索模型如何在真实约束下,交付真正的产业价值。可以说,这可能是今年金融AI领域最值得关注的一场赛事。
2026金融AI武道大会
今年的挑战组设置了四个分会场,先逐一看看。
赛题一:市场参与者交易行为识别与资金流向分析

普通投资者面对盘面时,最大的无力感在于:你永远不知道屏幕另一头那笔大单的真实意图。股票突然拉升,大单涌现,盘口挂出巨量买单。你捕捉到K线异动,准备追入风口——但对面真正的目的,可能只是骗你进来接盘。
股市里藏着人。如何更好识别交易行为,始终是市场的天然刚需。但难点也恰恰在此:在这片黑暗森林里,买卖双方都在绞尽脑汁揣测对方意图。结果就是持续的对抗与升级:当某些资金行为被识别出来,执行方会反过来隐藏自己,甚至利用市场对这些信号的认知进行反向博弈。
蚂蚁集团财富保险事业群投研投顾技术负责人、AFAC大赛出题家纪韩认为,这正是这道赛题最有趣的地方。资金识别这件事,从来不只是数学题。
从交易角度看,挂单、撤单、拆单,本质上是你与对手盘之间的一种沟通。这里面夹杂着大量意图,包括误导和制造假象。最强的选手,赢在对社会、商业乃至人性的理解。
如今大模型的出现,为这场博弈提供了新武器。它能从高频数值数据中发现人类尚未总结出的隐含模式。谁能优先利用并封装好这项能力,谁就能在股市中赢得真金白银。

但只调用模型远远不够,选手必须依托harness框架来设计机制。L2行情数据量级庞大,如果硬塞进模型,哪怕是支持1M上下文的窗口也会直接爆掉,导致注意力机制失效。参赛者需要提前编写规则或代码,或者让模型调用工具,先把数据处理到可观察、可理解、可判断的状态。在harness的实现层面,这隐含了非常复杂的工程要求。
场景之外,评测规则也很有意思。这个赛题并没有强调“成本优化”。很反直觉,对吧?毕竟一提到落地,大部分人最关心的就是成本。对此,纪韩的解释是:如果策略真的有效,其带来的潜在收益增强,可能让成本显得微不足道。这是一场博弈,当你在纠结成本时,你的对手可能正在倾尽全力调用最好的模型。
每个场景都有自己的价值函数,“成本”并非永恒的关键变量。看盘这件事,首要目的就是赢过对手。
赛题二:复杂金融文档还原挑战
参赛选手需要设计并实现一个端到端的文档解析系统,将一张金融文档图片,完整、准确、有结构地转成Markdown。

注意三个关键词:完整、准确、有结构。金融文档不是普通的小作文。一份保险文档,通常包含多级标题、密集表格、脚注和批注,每项信息都必须100%准确。

为什么要做这件事?以保险表格为例,寿险产品需要精准告诉用户,在某年某月能领到多少钱。这个数字从哪来?表格查询。经纪人拿到需求后,凭借直觉定位到第15XX页的某一张表、某一个单元格,查出用户45岁时能领多少钱。但用户数量庞大,不可能每次有人问都让经纪人亲自查页数、找单元格。
机构当然希望把这些文档结构化。但问题是,金融文档大部分是图片或PDF,普通OCR能认出字,却没有智能。这引出了阅读顺序的问题——人能一眼判断阅读顺序,机器却可能先读右栏再读左栏,文字都认对了,意思却完全乱掉。结构,其实是语义极其重要的一部分。
大模型能很好地解决这个问题,但也带来了新的约束——上下文。金融文档的超大图可能有几亿像素点,光输入就会撑爆窗口,何况输出还可能长达十几万字。不能指望一个模型硬吞整张图。因此需要一套端到端Agent工作流:先切分,再调用小模型分多次解析,最终拼回一份保真的Markdown。

在蚂蚁集团财富保险事业群保险智能科技资深总监、AFAC大赛出题家续兴中看来,拼接这套SOP的过程,有点像福尔摩斯办案:面对一个复杂系统,当需要提升效率或解决训练不稳定的问题时,必须从基础研究的角度去拆解和分析。这要求研究员具备整体性思考能力,能精准分析、定位和归因,就像侦探破案一样。
值得注意的细节是,赛题提供的模型底座是FinixDoc-VL,专门针对金融文档优化的多模态模型。FinixDoc由蚂蚁保算法团队研发,核心模型基于4B级Qwen3-VL训练。团队还构建了金融文档难例评测榜单FinixDocBench,并开源了部分子集,覆盖真实业务中的低质量、超长文档和密集表格等难点场景。在该榜单中,FinixDoc-VL取得了81.43的综合得分。

赛题三:稀疏反馈下的自动化实验挑战

这道题比较与众不同,更像在金融领域里做科研。参赛选手需要让Agent像研究员一样开展机器学习实验,完成金融场景下的图学习任务。
很多人以为AI比赛就是选个好模型,把数据丢进去训练。但真实情况更像做菜——你调一次火候,尝一口;盐多了下次少放,肉老了下次缩短时间。但问题是,每尝一口都是成本,无论是食材还是时间。你的尝试次数有限,最后还必须端出一盘让客户满意的菜。这就是“稀疏反馈下的自动化实验”的核心理念。赛题要求以金融图学习为沙盒,让Agent在预算限制的硬约束下,尽可能优化任务表现。
读到这里,可能有人会联想到Vibe Coding圈的一个说法:模型越大,成本反而越低。大体逻辑是,聪明的模型在执行过程中犯错更少,输出的Token也更少,即便API单价更高,完成单项任务的总成本反而更低。但赛题三的角度并不完全一样。
清华大学电子工程系副教授、AFAC大赛出题家姚权铭多年深耕AutoML,他指出:金融图学习并非大模型天然擅长的形态。其搜索空间往往缺乏连贯语义,通用模型的语言先验在这里帮不上太多忙。
现在是Scaling Law为王的时代,大家很容易产生一种错觉:AI似乎可以包容万物。问题是,仅仅是“能用”真的够吗?大模型本质上给所有人施加了一个共同的加速度。但在竞争激烈的市场环境下,做同样的事情,如果对手消耗的Token只有你的十分之一,那你的市场份额马上就会被动摇。
优秀的方案未必来自更贵的API。如果有一个设计更精良的专业模型,或许3B参数就能搞定。AGI可以为了“故事”随便烧钱,但垂直场景必须追求极致。对从业者来说,这件事则更加现实:一个人被招进来,有管理、状态、成本等问题。如果这个人仅仅在AI能力覆盖的范畴内做事,很快会被取代。相反,一个能解决AI极限之外问题的人,未来会有更长的发展空间。
赛题四:金融长文本Agent的动态记忆压缩与高效问答挑战

这道题可以和赛题二放在一起理解——两者都死磕“上下文”。赛题二考验输入,赛题四考验输出。
出题方会提供海量金融长文档,参赛选手需要让AI基于这些上下文精准答题。难点有两个:第一,结构极度复杂。金融文件里充斥着大量交叉引用、表格、附录、批注。一个否定词、一个限定条件,或者附录里的一处计算口径,都可能让最终答案天差地别。第二,对“追溯性”要求极高。金融任务出错的代价十分沉重。用户绝不能只接受一个“看起来合理”的答案,还必须知道答案来自第几页、第几条。
怎么做?单纯切片检索,很容易丢失上下文关联;把全文硬塞给模型,幻觉又会大幅增加,极易把A产品的问题答成B产品的条款。更现实的方案,是通过Agent工程进行上下文管理。赛题建议的SOP如下:
- 文档预处理:PDF或文本先解析成可检索的结构,按章节、段落、表格切开。
- 文档组织与索引:按领域构建关键词索引和结构化字段索引。
- 题目解析:识别题型、关键词、实体、时间、金额、指标和候选文档。
- 证据检索:只取最相关的几段,而不是整本书。
- 推理作答:根据证据判断选项真假。
- 答案校验:单选只能一个,多选要列全,判断题填A或B。
- 结果汇总:生成符合提交格式的文件。

坦白讲,第一次看到这套SOP时,内心是有疑惑的。毕竟现在GPT+RAG基本已经能做到没有幻觉,为什么不直接接入最前沿模型的API呢?对此,复旦大学助理教授、博士生导师、AFAC出题家郭宏成解释了一个作为消费者未曾考虑过的视角:上下文成本控制在B端是另一个量级。
金融机构面对的不是一次性问答,而是海量文档。它们需要持续进行合规审查、投研分析、客服辅助和内部知识问答,这些材料动辄几百页。如果每个请求都直接塞进大模型,单次看只是多消耗一些Token;但放到日级、月级乃至机构级的调用量上,账单会沦为天文数字。
这也是为什么赛题四将“Token消耗”纳入评测维度之一。
以上,就是此次AFAC大赛的四条赛道。信息量确实有些爆炸——每个评测指标的背后,都隐藏着对真实业务需求的具体思考。问题本身的选取也极具品味,全部是开放式问题,没有哪一道是光靠堆算力就能暴力破解的。最好的创新,往往就诞生在这种混沌地带。
金融AI:自带护城河的黄金赛道
如此有含金量的赛题,究竟是怎么头脑风暴出来的?答案很简单:这是蚂蚁亲自下场组的局。
AFAC2026大赛背后,站着一个兼具产业一线经验与学术前沿视野的赛题委员会。

这个组合极具张力。蚂蚁集团副总裁、财富保险事业群CTO、大赛组委会主席尹俊指出:AI发展到今天非常火热,但真正落到行业——尤其落到金融行业——难度依然很大。首先,受限于合规、风险控制等要求和挑战,金融+AI的具体形态还有待摸索。其次,金融AI能创造的价值多少仍未被证明。投入后能否产生足够回报?长期来看上限能做到什么程度?这些都不像LLM叙事中那样,有AGI这个标准答案。
金融机构有经营压力,价值、合规和风险上的担忧,影响行业快速拥抱AI。学术机构不存在机会成本导致的“转型悖论”,却又很难深入介入真实金融场景,因为保密性要求更高。AFAC大赛的出现,恰好提供了一个尽可能贴近真实场景的“沙盒”,从而将产业和学界连接在一起。当“黑盒”里的Know-How被拆开,真实业务数据被公开,产学研便能围绕同一个靶心共同创新。

换个角度看,也许正是这些难点,才让垂直场景AI拥有了独特魅力。这是一个自带护城河的赛道。没有通用AI那么卷,不需要金字塔顶尖水平的AI履历要求,复合型人才能凭借自己对金融行业Know-How,形成另一种竞争力。
蚂蚁支持这件事,已是第四年。AFAC大赛自2024年首届举办以来,累计吸引超1.5万支队伍、近5万名选手,覆盖600余所高校与400余家企业。它由中国计算机学会、北京大学、蚂蚁集团、NVIDIA等近30家机构联合发起,现已成长为全国乃至全球顶尖的金融智能赛事之一。

“人人可参与”的Agent时代
这一点,从赛题设计上也能找到印证。交易行为识别、金融文档还原……四道题方向各异,却指向同一条线索:AI行业,终于到了“人人可参与”的时代。预训练时期,Scaling Law对算力的要求近乎恐怖,小团队连巨头的脚趾都摸不到。但今年的AFAC大赛,完全是另一副风景。
几乎每位出题家都坦言——无法预料最佳实践,也猜不到冠军会拿出什么方案。这背后是同一种共识:“大力出奇迹”的暴力解法,在Agent时代走不通了。你不可能把所有工程能力都训练进参数里。计算资源的消耗太恐怖,模型还不一定会更聪明。
相比LLM,Agent更像一个工程问题。它需要可复现的洞见,需要尊重业务约束。而做好这件事的方法论,在各行各业都远未收敛。

一般而言,技术发展会经历四个阶段:孵化期、试错期、爆发期和评估期。手机、通信、光电乃至量子计算,概莫能外。不同阶段,行业的发展范式也有不同特点。性能快速爬升阶段,资源更重要;技术孵化期,则需要重新定义问题,也是最需要人才多样性的时候。
经历了深度学习、Transformer、GPT时刻的一路狂奔,AI的产业周期终于轮回到了Agent落地的孵化阶段。在这里,竞争回归研究层。Taste,决定天花板。
2026年最有看点的金融AI武道会,已经开赛了。

