首届AI投资赛落幕:阿里通义千问Qwen3-Max以22.32%收益夺冠,GPT-5亏逾62%
11月4日,美国研究机构Nof1宣布启动一项实盘测试:他们为全球六大顶尖大语言模型(LLM)分别注入1万美元初始资金,在真实市场环境中进行自主交易。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
今天,首届Alpha Arena正式公布赛果,阿里旗下通义千问Qwen3-Max在最终阶段保持领先优势,以22.32%的收益率摘得投资桂冠。
这场"投资竞赛"汇集了Qwen3-Max、DeepSeek v3.1、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5和Grok 4六大顶尖模型。除Qwen与DeepSeek外,其余四大模型全部出现亏损,其中GPT-5的亏损幅度超过62%。

Alpha Arena旨在通过动态竞争的真实环境,检验这些模型在量化交易领域的实战能力。
虽然AI模型都能完成指定任务,但研究人员指出,在风险管理、交易行为、持仓时长、方向偏好等关键维度上,不同模型的表现存在显著差异。

研究团队强调,此次实验并非为了"选出最强模型",而是推动AI研究从静态、考试式的基准测试,转向对真实世界和实时决策能力的考察。
实验设计
每个模型均获得1万美元(约合71218元人民币)初始资金,用于在Hyperliquid交易平台上交易六大主流加密货币永续合约(包括BTC、ETH、SOL、BNB、DOGE、XRP)。
模型只能基于数值市场数据(价格、成交量、技术指标等)进行决策,不允许查阅新闻或时事信息。
每个模型的目标均为实现"最大化盈亏",同时以夏普比率作为风险调整后的评估指标。
交易操作被简化为四种基本指令:买入(做多)、卖出(做空)、持有、平仓。所有模型均使用相同的提示词、数据接口,且未经特定微调。

初步结果
报告显示,虽然每个模型都在相同结构下运行,但它们的交易风格、风险偏好、持仓时间和交易频率都表现出明显不同。例如:某些模型频繁进行空头操作,而另一些几乎不做空。部分模型持仓周期长、交易频率低,而另一些则交易活跃。
在数据格式敏感性方面,研究团队观察到:若将提示中的"数据顺序"由"新→旧"改为"旧→新",即可修复部分模型因误读数据而产生的错误。
研究也指出,此次测试存在样本有限、运行时间短、模型无历史业绩记录、无持续学习能力等局限。团队表示将在下一季引入更多控制变量、增强模型特性以提升统计效力。
意义与观察
该项目试图回答一个基本问题:"大语言模型在未经特定微调、仅凭数值数据输入、处于真实交易环境中时,能否作为零样本交易系统使用?"
通过这项实验,Nof1旨在推动AI研究转向"基于真实、动态和风险驱动的基准",而不仅仅是依赖静态数据集。
虽然实验尚未得出"哪款模型最强"的结论,但已揭示:即便最先进的LLM,在实际交易中仍面临"动作执行""风险控制""市场状态理解""提示格式敏感性"等多方面挑战。
热门专题
热门推荐
IT之家 3 月 30 日消息,彭博社记者马克 · 古尔曼昨天在最新一期《Power On》通讯中表示,他对苹果首款折叠屏手机 iPhone Fold 寄予厚望。他表示,这款手机将成为“iPhone
3月29日消息,Intel全新的Arrow Lake Refresh系列处理器酷睿Ultra 200S Plus已经于3月26日正式上市,包括酷睿Ultra 5 250K Plus和酷睿Ultra
企查查正式推出智能体数据平台(agent qcc com),可通过标准MCP协议对接阿里云百炼、扣子Coze、飞书集成平台等主流Agent平台。该平台针对AI Agent企业级应用面临的模型幻觉、上
【张雪机车获世界顶级赛事冠军】在3月28日进行的世界超级摩托车锦标赛(WSBK)中量级赛事(葡萄牙站)中,法国车手Valentin Debise驾驶张雪机车(编号53)820RR-RS车型,以领先近
IT之家 3 月 30 日消息,GoPro 上周(3 月 25 日)宣布将在 4 月 19 日-22 日的 NAB Show 2026 展会上发布新一代相机产品,搭载下一代 GP3 影像处理器。据介





