高智商≠高财商?LMArena实战50天:高分玩家也可能是理财菜鸟
LiveTradeBench 项目于数月前正式启动,研究团队开展了为期五十天的实盘测试,覆盖美国股市与去中心化预测市场 PolyMarket,成为业界最早探索“实盘智能体评测”的关键研究之一。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
该研究团队成员均来自伊利诺伊大学厄巴纳-香槟分校(UIUC)。核心贡献者之一 Haofei Yu 为计算机系博士生,另一位核心成员 Fenghai Li 为计算机系本科生,项目由计算机系助理教授 Jiaxuan You 指导,并依托 UIUC U Lab 实验室资源开展。Jiaxuan You 教授的研究聚焦于大模型智能体的基础能力构建、垂直应用开发与生态建设。他毕业于斯坦福大学,已在 NeurIPS、ICML、ICLR 等顶会发表论文三十余篇,总引用量近两万次,多次担任领域主席并组织学术研讨会;其主导的开源项目累计获得超三万颗 GitHub Stars。
“在大模型热潮中,如何真实衡量它们的智能水平?”
过往的评测多停留在知识问答、逻辑推理或指令理解层面。而 LiveTradeBench 首开先河,让大模型“下场交易”——在真实金融市场的动态博弈中,检验其感知、推演与决策能力。
LiveTradeBench 的研究启动于数月前,并持续进行了为期五十天的实盘测试,覆盖美股市场与去中心化预测市场 PolyMarket,堪称最早探索“实盘智能体评测”的标杆性工作。
在这里,模型不仅要理解财经信息,更需面对市场不确定性,学会下注与取舍的智慧。
尤其值得关注的是,LiveTradeBench 坚持全面开源:所有数据来源、模型决策记录、仓位变化路径、表现分析结果,以及大模型推理的全流程记录均公开透明,为研究社区提供了可复现、可验证的大模型实盘评测基准。

从“测知识”到“测财商”:智能评测的新前沿
过去两年,大语言模型(LLM)在各类静态基准上表现惊人:无论是知识问答(MMLU、GPQA)、数学推理(GSM8K、CodeElo),还是指令遵循(FollowBench、Instruction-Bench),顶尖模型几乎都能“卷到满分”。
但这些测试存在一个共同点——它们都是静态的、单向的、无反馈的。这些评测只能衡量模型在固定输入上的一次性推理能力。而现实世界要求模型具备持续观察、长期推演与动态适应能力。
为此,研究者们开始构建各类智能体环境,让模型“动起来”。然而多数环境仍是封闭的、逻辑预设的。模型能够“操作”,却难以真正“动态适应”。
而金融市场正是最具挑战性的真实动态系统——信息不完全、反馈延迟、风险与机会并存。
LiveTradeBench:让 LLM 真正下场交易,打造在真实市场数据上运行的大语言模型交易与投资测评平台。
三大核心创新

实时流式数据,杜绝信息泄露
由表1可见,过往工作多依赖离线回测或静态问答,难以反映市场的不确定性。
LiveTradeBench 直接对接真实股票与预测市场数据,让模型在动态变化中实时决策,彻底杜绝信息泄漏风险。
组合层次的投资决策
由表1可见,相比单一资产的买卖决策,LiveTradeBench 引入组合级别(portfolio-level)的动态资产配置,要求模型在收益与风险间权衡,随市场信号动态调整各类资产的比例权重。
多市场比较与泛化能力
图1展示了典型市场形态:左图为AAPL美股走势,右图为PolyMarket上“OpenAI是否在2025年底拥有最强AI模型”预测合约。二者皆受新闻事件驱动,但PolyMarket 反应更快、波动更剧烈。通过跨市场设计,平台可系统性评估模型的策略迁移能力和事件敏感度。

资产管理任务设定
在 LiveTradeBench 中,研究团队将投资决策过程建模为一个部分可观测的马尔可夫决策过程。
这意味着,大模型面对的环境不是一次性的输入输出,而是一个不断变化、且带有反馈的世界:市场的真实状态无法直接看到,模型必须依据有限信息进行推理和行动。
如图2所示,智能体在每个时间步接收三类观测信号:
仓位信息:当前持有的股票资产与现金比例;
市场价格:各类资产的实时价格走势;
市场舆情:来自新闻与社交媒体的动态事件与情绪信号。
在美股市场中,这些观测反映的是股票持仓与宏观新闻动态;在PolyMarket预测市场中,则是事件合约持仓情况与相关新闻。这些信息与模型当前的仓位信息共同构成其决策依据。
接着,模型输出新的资产配置向量,我们设计的智能体不直接输出买卖策略,而是直接输出代表投资组合的分配比例,例如可配置AAPL占总资产的20%,NVDA占40%。我们将现金也视为一种资产类别。图2中,我们将智能体的决策过程转化为实际买卖操作。
通过如此设计,LiveTradeBench 形成了完整的“观察→决策→反馈”闭环:
市场变化影响模型观测,模型动作改变持仓结构,从而形成持续交互的学习循环。

智能体设计框架:让模型像人类投资者一样思考
在 LiveTradeBench 中,LLM 被赋予完整的决策闭环:感知→记忆→推理→行动。
工具调用:实时抓取与目标相关的价格走势与新闻资讯,结构化处理市场信号。
记忆模块:保留过往观察与行动结果,形成可演化的内部认知状态。
推理过程:通过链式思考,解释信号、预测结果,生成相应策略。

五十天实测:揭示模型“财商差距”
在 LiveTradeBench 平台上,我们对21个主流LLM进行了为期50天的实盘测试,覆盖多个模型家族与能力层级。结果显示:

这些结果揭示了一个关键事实:静态推理≠动态决策。在真实世界的复杂反馈中,LLM 的“聪明”需要重新定义。
迈向大模型智能体评测的下一站
LiveTradeBench 开启了大模型智能体评测的新维度:从文本理解到环境反馈,从逻辑推演到连续决策。我们相信,未来的智能体不应只在题库中拿高分,更应在瞬息万变的市场中感知风险、管理机遇并创造价值。

相关攻略
Solidus AI 是什么 在AI与Web3加速融合的当下,一个名为Solidus AI的项目提出了自己的解决方案。它将自己定位为“Web3原生的AI HPC基础设施”,其蓝图相当清晰:以位于欧洲的环保高性能计算(HPC)数据中心为基石,向上构建一个计算与AI工具市场,并最终通过AITECH代币完
Cardano (ADA) 2026年价格预测:AI深度解析与增长路径 在瞬息万变的加密市场,人工智能分析正成为洞察未来趋势的关键工具。近期,由Grok AI模型发布的Cardano(ADA)2026年价格预测引发了广泛关注,其大胆展望ADA或有望触及两位数美元价格。这不仅彰显了AI数据分析的潜力,
京东“全民养虾计划”:开启AI助手体验新纪元 科技领域近期迎来一场别开生面的创新活动:京东正式推出“全民养虾计划”。表面看,它与美食相关,实际上是一场针对AI智能体技术普及的宏大实验。该计划通过“购买AI硬件、赠送专业安装服务与趣味小龙虾”的组合策略,为当前热门的开源AI智能体——OpenClaw,
以太坊资本外溢:TRON为何成为15 2亿美元稳定币新枢纽? 区块链世界的地壳运动从未停止,资本的流向便是其中最敏锐的震感。近期,一场规模惊人的资本迁徙正在上演:大量资金正从以太坊网络流出,涌入TRON生态。这不仅是简单的资产转移,更是一次深刻的行业风向标,揭示了用户对交易成本、网络效率与应用场景的
自研第一个SKILL:手把手教你开发openclaw自定义技能 当你成功构建好openclaw之后,如何让它真正“智能”起来?关键在于为其开发SKILL——这些技能是openclaw的“内功心法”,决定了它能帮你做什么、做多好。 本文将带你亲自动手,从零开始开发你的第一个openclaw自定义技能,
热门专题
热门推荐
```html 2025年9月ADA将剑指何方?一文读懂Cardano突破1美元的关键战役 2025年9月,加密市场的目光再次聚焦于Cardano及其原生代币ADA。随着价格在0 80美元关键支撑位附近盘整,一个核心议题浮出水面:ADA能否借助生态里程碑与宏观转向的东风,在本月一举攻克并站稳1美元大
什么是币安矿池?全面解读主流矿池的核心优势 当人们谈论加密货币挖矿时,脑海中浮现的往往是巨大的矿机和轰鸣的机房。然而,一个更具效率与稳定性的选择正成为全球矿工的新宠——币安矿池。作为全球领先的加密货币交易所币安旗下的核心服务之一,币安矿池本质上是一个聚合全球算力的去中心化矿池平台。它允许矿工将个人算
《洛克王国:世界》灵魂环印使用攻略 灵魂环印是《洛克王国:世界》中提升魔法师耐力的核心道具,千万别舍不得使用。它能为你的角色快速“充电”,显著增强魔法师的续航能力。耐力属性直接影响实战中的操作流畅度与技能释放频率,无论是PVP竞技还是挑战高难度BOSS,充足的耐力条都能带来截然不同的游戏体验。使用灵
OKX鲨鱼鳍:一款兼顾本金安全与潜在高收益的结构化理财产品 在加密货币理财的世界里,你是否也常纠结于如何在控制风险的同时,追求比普通活期、定期更高的收益?OKX交易所推出的“鲨鱼鳍”结构化产品,或许提供了一个巧妙的解决方案。 简单来说,这是一款保本型理财产品。你只需选定一个币种,并对其未来1到7天的
角色一:小萤 谈及机动性与灵活走位,小萤无疑是游戏中的顶尖代表。其核心优势在于无与伦比的战场穿梭能力,得益于独特的轻盈步伐,闪避各类攻击对她而言游刃有余。她的标志性技能“微光闪烁”,可提供短时爆发性移速加成,无论是用于切入战场先手开团,还是关键时刻脱离险境,都能起到决定性作用。 精通小萤的关键,在于





