首届AI投资赛落幕:阿里通义千问Qwen3-Max以22.32%收益夺冠,GPT-5亏逾62%
11月4日,美国研究机构Nof1宣布启动一项实盘测试:他们为全球六大顶尖大语言模型(LLM)分别注入1万美元初始资金,在真实市场环境中进行自主交易。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
今天,首届Alpha Arena正式公布赛果,阿里旗下通义千问Qwen3-Max在最终阶段保持领先优势,以22.32%的收益率摘得投资桂冠。
这场"投资竞赛"汇集了Qwen3-Max、DeepSeek v3.1、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5和Grok 4六大顶尖模型。除Qwen与DeepSeek外,其余四大模型全部出现亏损,其中GPT-5的亏损幅度超过62%。

Alpha Arena旨在通过动态竞争的真实环境,检验这些模型在量化交易领域的实战能力。
虽然AI模型都能完成指定任务,但研究人员指出,在风险管理、交易行为、持仓时长、方向偏好等关键维度上,不同模型的表现存在显著差异。

研究团队强调,此次实验并非为了"选出最强模型",而是推动AI研究从静态、考试式的基准测试,转向对真实世界和实时决策能力的考察。
实验设计
每个模型均获得1万美元(约合71218元人民币)初始资金,用于在Hyperliquid交易平台上交易六大主流加密货币永续合约(包括BTC、ETH、SOL、BNB、DOGE、XRP)。
模型只能基于数值市场数据(价格、成交量、技术指标等)进行决策,不允许查阅新闻或时事信息。
每个模型的目标均为实现"最大化盈亏",同时以夏普比率作为风险调整后的评估指标。
交易操作被简化为四种基本指令:买入(做多)、卖出(做空)、持有、平仓。所有模型均使用相同的提示词、数据接口,且未经特定微调。

初步结果
报告显示,虽然每个模型都在相同结构下运行,但它们的交易风格、风险偏好、持仓时间和交易频率都表现出明显不同。例如:某些模型频繁进行空头操作,而另一些几乎不做空。部分模型持仓周期长、交易频率低,而另一些则交易活跃。
在数据格式敏感性方面,研究团队观察到:若将提示中的"数据顺序"由"新→旧"改为"旧→新",即可修复部分模型因误读数据而产生的错误。
研究也指出,此次测试存在样本有限、运行时间短、模型无历史业绩记录、无持续学习能力等局限。团队表示将在下一季引入更多控制变量、增强模型特性以提升统计效力。
意义与观察
该项目试图回答一个基本问题:"大语言模型在未经特定微调、仅凭数值数据输入、处于真实交易环境中时,能否作为零样本交易系统使用?"
通过这项实验,Nof1旨在推动AI研究转向"基于真实、动态和风险驱动的基准",而不仅仅是依赖静态数据集。
虽然实验尚未得出"哪款模型最强"的结论,但已揭示:即便最先进的LLM,在实际交易中仍面临"动作执行""风险控制""市场状态理解""提示格式敏感性"等多方面挑战。
热门专题
热门推荐
特斯拉2025财年为首席执行官马斯克支付的个人安保费用达480万美元,较前一年增长71%。今年头两月支出同比激增超160%。该费用仅为其安保开支一部分,其名下其他企业也分担相关成本。费用增长源于投资者呼吁及本人确认的必要性,其日常安保规格极高,常由约20名保镖及医护人员随行。
HatchyPocket是融合DeFi与NFT的链上游戏平台,其代币HATCHY用于支付、治理与激励。玩家可孵化收集虚拟宠物,资产基于区块链。获取免费空投需关注官方社交渠道、参与测试网活动或贡献社区内容,但需注意安全防范与数量限制。该项目展现了游戏与区块链结合的新模式。
京东启动大规模数据采集计划,依托数十万员工与线下业务网络,在真实服务场景中采集超千万小时视频数据,构建高质量具身智能训练数据集。此举旨在破解物理AI落地的数据瓶颈,将日常履约场景转化为数据源头,为机器人从实验室走向现实提供关键支撑。
还在为《无期迷途》受枷者关卡发愁?小兵无视阻挡快速推进,BOSS物理抗性极高,防线频频失守?别担心,本文将为你详细解析三套高适配阵容攻略,助你轻松通关。即便是零氪、微氪玩家,也能稳定获取24万高分奖励! 法系速杀流:开局秒核,一击制胜 应对受枷者关卡,两大核心难点在于:无视阻挡的杂兵推进速度极快,而
握紧你的武器,指挥官!Vor的战利品之门已经开启——这不仅仅是一个新手任务,更是你蜕变为一名真正Tenno战士的震撼序章。无需担心经验不足,本关卡专为初入《星际战甲》宇宙的你设计,全程由引导者Lotus亲自指引。浩瀚的星际战甲世界,此刻正式为你拉开帷幕! 核心操作精通:位移如风,攻防一体 任务开始,





