高智商≠高财商？LMArena实战50天：高分玩家也可能是理财菜鸟

首页

热心网友

转载

2025-11-03

LiveTradeBench 项目于数月前正式启动，研究团队开展了为期五十天的实盘测试，覆盖美国股市与去中心化预测市场 PolyMarket，成为业界最早探索“实盘智能体评测”的关键研究之一。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

该研究团队成员均来自伊利诺伊大学厄巴纳-香槟分校（UIUC）。核心贡献者之一 Haofei Yu 为计算机系博士生，另一位核心成员 Fenghai Li 为计算机系本科生，项目由计算机系助理教授 Jiaxuan You 指导，并依托 UIUC U Lab 实验室资源开展。Jiaxuan You 教授的研究聚焦于大模型智能体的基础能力构建、垂直应用开发与生态建设。他毕业于斯坦福大学，已在 NeurIPS、ICML、ICLR 等顶会发表论文三十余篇，总引用量近两万次，多次担任领域主席并组织学术研讨会；其主导的开源项目累计获得超三万颗 GitHub Stars。

“在大模型热潮中，如何真实衡量它们的智能水平？”

过往的评测多停留在知识问答、逻辑推理或指令理解层面。而 LiveTradeBench 首开先河，让大模型“下场交易”——在真实金融市场的动态博弈中，检验其感知、推演与决策能力。

LiveTradeBench 的研究启动于数月前，并持续进行了为期五十天的实盘测试，覆盖美股市场与去中心化预测市场 PolyMarket，堪称最早探索“实盘智能体评测”的标杆性工作。

在这里，模型不仅要理解财经信息，更需面对市场不确定性，学会下注与取舍的智慧。

尤其值得关注的是，LiveTradeBench 坚持全面开源：所有数据来源、模型决策记录、仓位变化路径、表现分析结果，以及大模型推理的全流程记录均公开透明，为研究社区提供了可复现、可验证的大模型实盘评测基准。

从“测知识”到“测财商”：智能评测的新前沿

过去两年，大语言模型（LLM）在各类静态基准上表现惊人：无论是知识问答（MMLU、GPQA）、数学推理（GSM8K、CodeElo），还是指令遵循（FollowBench、Instruction-Bench），顶尖模型几乎都能“卷到满分”。

但这些测试存在一个共同点——它们都是静态的、单向的、无反馈的。这些评测只能衡量模型在固定输入上的一次性推理能力。而现实世界要求模型具备持续观察、长期推演与动态适应能力。

为此，研究者们开始构建各类智能体环境，让模型“动起来”。然而多数环境仍是封闭的、逻辑预设的。模型能够“操作”，却难以真正“动态适应”。

而金融市场正是最具挑战性的真实动态系统——信息不完全、反馈延迟、风险与机会并存。

LiveTradeBench：让 LLM 真正下场交易，打造在真实市场数据上运行的大语言模型交易与投资测评平台。

三大核心创新

实时流式数据，杜绝信息泄露

由表1可见，过往工作多依赖离线回测或静态问答，难以反映市场的不确定性。

LiveTradeBench 直接对接真实股票与预测市场数据，让模型在动态变化中实时决策，彻底杜绝信息泄漏风险。

组合层次的投资决策

由表1可见，相比单一资产的买卖决策，LiveTradeBench 引入组合级别（portfolio-level）的动态资产配置，要求模型在收益与风险间权衡，随市场信号动态调整各类资产的比例权重。

多市场比较与泛化能力

图1展示了典型市场形态：左图为AAPL美股走势，右图为PolyMarket上“OpenAI是否在2025年底拥有最强AI模型”预测合约。二者皆受新闻事件驱动，但PolyMarket 反应更快、波动更剧烈。通过跨市场设计，平台可系统性评估模型的策略迁移能力和事件敏感度。

资产管理任务设定

在 LiveTradeBench 中，研究团队将投资决策过程建模为一个部分可观测的马尔可夫决策过程。

这意味着，大模型面对的环境不是一次性的输入输出，而是一个不断变化、且带有反馈的世界：市场的真实状态无法直接看到，模型必须依据有限信息进行推理和行动。

如图2所示，智能体在每个时间步接收三类观测信号：

仓位信息：当前持有的股票资产与现金比例；

市场价格：各类资产的实时价格走势；

市场舆情：来自新闻与社交媒体的动态事件与情绪信号。

在美股市场中，这些观测反映的是股票持仓与宏观新闻动态；在PolyMarket预测市场中，则是事件合约持仓情况与相关新闻。这些信息与模型当前的仓位信息共同构成其决策依据。

接着，模型输出新的资产配置向量，我们设计的智能体不直接输出买卖策略，而是直接输出代表投资组合的分配比例，例如可配置AAPL占总资产的20%，NVDA占40%。我们将现金也视为一种资产类别。图2中，我们将智能体的决策过程转化为实际买卖操作。

通过如此设计，LiveTradeBench 形成了完整的“观察→决策→反馈”闭环：

市场变化影响模型观测，模型动作改变持仓结构，从而形成持续交互的学习循环。

智能体设计框架：让模型像人类投资者一样思考

在 LiveTradeBench 中，LLM 被赋予完整的决策闭环：感知→记忆→推理→行动。

工具调用：实时抓取与目标相关的价格走势与新闻资讯，结构化处理市场信号。

记忆模块：保留过往观察与行动结果，形成可演化的内部认知状态。

推理过程：通过链式思考，解释信号、预测结果，生成相应策略。

五十天实测：揭示模型“财商差距”

在 LiveTradeBench 平台上，我们对21个主流LLM进行了为期50天的实盘测试，覆盖多个模型家族与能力层级。结果显示：

这些结果揭示了一个关键事实：静态推理≠动态决策。在真实世界的复杂反馈中，LLM 的“聪明”需要重新定义。

迈向大模型智能体评测的下一站

LiveTradeBench 开启了大模型智能体评测的新维度：从文本理解到环境反馈，从逻辑推演到连续决策。我们相信，未来的智能体不应只在题库中拿高分，更应在瞬息万变的市场中感知风险、管理机遇并创造价值。

来源:https://www.51cto.com/article/828632.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：对话式AI驱动RTE产业：从连接跃迁到智能交互下一篇：荣威M7+DMH测评：从性能猛兽到奶爸神车，如何兼顾驾驶激情与家庭舒适？

热门推荐

web3.0

2025年9月 ADA 价格预测:Cardano 最终能否突破 1 美元大关？

```html 2025年9月ADA将剑指何方？一文读懂Cardano突破1美元的关键战役 2025年9月，加密市场的目光再次聚焦于Cardano及其原生代币ADA。随着价格在0 80美元关键支撑位附近盘整，一个核心议题浮出水面：ADA能否借助生态里程碑与宏观转向的东风，在本月一举攻克并站稳1美元大

热心网友

04.03