首届AI交易赛落幕：6团队2周战报，Qwen与DeepSeek盈利，GPT-5亏6000刀

时间：2025-11-30 18:13

经过两周的厮杀，首届 nof1 AI 模型交易大赛终于落下帷幕。这是第一个专为衡量 AI 投资能力而设计的基准测试，被誉为「币圈版的图灵测试」，由美国人工智能研究实验室 Nof1 ai 于 20

经过两周的激烈角逐，首届 Nof1 AI 模型交易大赛终于圆满落幕。

这是首个专门为评估 AI 投资能力而设计的基准测试，被誉为"币圈版的图灵测试"，由美国人人工智能研究实验室 Nof1.ai 于 2025 年 10 月 17 日正式启动，一直持续至 11 月 3 日结束。

参赛选手是 6 款大模型，分别是 DeepSeek Chat V3.1（DeepSeek）、Grok 4（xAI）、Gemini 2.5 Pro（Google）、GPT-5（OpenAI）、Qwen3 Max（阿里巴巴）、Claude Sonnet 4.5（Anthropic）。

这些模型代表了中美两国闭源和开源供应商的最新技术水平。除 Qwen3-Max 外，所有模型均为启用最高可配置的推理设置，且报告的是开箱即用的性能数据，未进行任何针对特定任务的微调。

每款大模型获得 1 万美元初始资金，使用相同的市场数据和技术指标，自主在 Hyperliquid 上进行加密货币永续合约交易。全程无人类干预，最终评估哪些模型能够在投资上获得最优回报。

它们的操作空间限制为：买入（做多）、卖出（做空）、持有或平仓。可交易的加密货币范围限于 Hyperliquid 上的六种流行货币：BTC、ETH、SOL、BNB、DOGE 和 XRP。之所以选择加密资产的三个实际原因是：市场全天候开放，能够持续观察决策，而不是仅在工作时间内；数据丰富且易于获取，这支持分析和透明的审计；Hyperliquid 快速、可靠，并且极易集成，Hyperliquid 和加密货币是全球性的，它们不太依赖于特定国家或公司。这些模型进行的是中低频交易（MLFT），其决策间隔为几分钟到几个小时，而非微秒级别。

按照比赛规则，所有交易记录、持仓、决策日志和账户余额变化实时公开，观众可通过 Nof1.ai 平台查看动态图表，透明度极高。

比赛结果已出炉，两个国产大模型打了漂亮的一仗。

Qwen3 Max 排名第一，收益率为 22.3%，胜率为 30.2%，总盈亏为 2232 美元，总交易次数为 43 次。DeepSeek Chat V3.1 排名第二，收益率为 4.89%，胜率为 24.4%，总盈亏为 489.08 美元，总交易次数为 41 次。

其余模型均大幅亏损，Claude Sonnet 4.5 亏损 30.81%、Grok 4 亏损 45.3%、Gemini 2.5 Pro 亏损 56.71%、GPT-5 亏损 62.66%。

赛事自启动以来引发广泛关注，连币安创始人赵长鹏也公开评论。

他认为，传统上交易策略通常依赖于独特性，最好是别人没有的策略，这样才能获得优势。如果所有人都用相同的 AI 模型进行交易，可能会导致大家在同一时刻买入或卖出，影响市场动态。

不过，如果足够多的人使用同一 AI 模型，它的购买力可能会通过市场需求本身推动价格上涨。

他还预测，由于 AI 交易的表现引起了关注，未来可能会有更多人开始研究 AI 在交易中的应用，预计交易量会大幅增加。

六款模型交易"个性"各异

从披露的"成绩单"可以看出，这六款模型有着不同的交易"个性"。

Qwen3 Max 整体偏"进攻型"，其回报率高达 22.32%，总盈亏为 2232 美元。尽管费用较高（1654 美元），显示其交易频率适中且仓位较大。Qwen3 Max 凭借 30.2% 的胜率和最大盈利 8176 美元，展现了"高风险高回报"的进取型交易策略。其 Sharpe 值为 0.273，证明其风险调整后收益稳定。

紧随其后，DeepSeek Chat V3.1 凭借稳健的表现获得了第二名，回报率为 4.89%，总盈亏为 489 美元。相对较低的交易费用（690 美元）表明其交易次数不多但效率较高。虽然其胜率为 24.4%，但最大盈利高达 7378 美元，表现出其理性、稳健的策略型特点。Sharpe 值为 0.359，为所有模型中最高，显示其出色的风险控制能力。

Claude Sonnet 4.5 表现较为平淡，回报率为 -30.81%，总亏损为 3081 美元。其较低的交易频率（36 次）和仅 25% 的胜率反映出它偏向谨慎的策略，但最大盈利 2112 美元与最大亏损 1579 美元显示出其单笔交易的差异性较小。Sharpe 值为 -0.057，意味着其收益波动较大，风险控制不足。

Grok 4 则以 -45.3% 的回报率和 4530 美元的总亏损，位居第四。它的交易频率为 47 次，Sharpe 值为 -0.118，最大盈利 1356 美元和最大亏损 657 美元表明其操作较为保守，难以抓住市场的大趋势。

Gemini 2.5 Pro 在大赛中表现不佳，回报率为 -56.71%，总亏损为 5671 美元。其 238 次交易次数为所有模型中最高，极度活跃，但胜率仅为 25.6%，Sharpe 值为 -0.566，反映出其过度交易，回报低效。这个模型更像是一个典型的"高频操盘手"，缺乏稳定的策略。

GPT-5 以 -62.66% 的回报率和 6266 美元的总亏损，成为表现最差的模型。它的 116 次交易次数虽然较多，但收益极低。胜率为 26.7%，Sharpe 值为 -0.525，表明其交易存在较大波动且亏损严重。最大盈利仅为 270 美元，最大亏损为 621 美元，说明其缺乏有效的市场判断和风险管理。

总体来看，来自中国的 Qwen3 Max 与 DeepSeek 在风险控制与趋势识别上更为领先，而 GPT-5、Claude、Grok、Gemini 等美国系模型则普遍亏损严重。

参考链接：

https://nof1.ai/leaderboard

https://nof1.ai/blog/TechPost1

来源：https://36kr.com/p/3538528076946563

上一篇制造AI的数据生存法则：数字化治理与智能化应用指南 下一篇Akamai李文涛：分布式边缘推理如何驱动智能时代业务革新

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

OpenClaw手机App上线，结果翻车了

OpenClaw 官方宣布，已正式推出 iOS 和 Android 原生移动 App，用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接：把 Agent 放进口袋里，让用户可以在移动端处理频道消息、任务和回复。从功能上看，OpenClaw 移动端并

科技数码 · 2026-07-01

优必选CEO周剑：家庭机器人生态核心投入过半精力

先说几个核心判断：优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上，直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进，现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景，另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间，技术路线尚未收敛

6月30日，申银万国在光连接系列研报中重点指出，MPO光连接器领域的投资机会值得高度关注。通俗来说，随着AI算力集群持续扩张，光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件，如今它直接决定着链路插损、可

科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上，区级部门一次性推出了7个AI“龙搭子”。其中，名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解，依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”，已在今年五一假期发布了内测版本。经过一个月市场验证后，该项目正式启动面向全社会的

科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日，南下资金持续大举买入港股，单日净流入金额高达58 95亿港元。接下来，我们直接盘点哪些个股获得资金青睐、哪些遭到减持：净买入方面，中芯国际领跑全场，单日吸金19 33亿港元；建滔积层板紧随其后，净买入10 59亿港元；腾讯控股获得7 65亿港元净流入；智谱（02513 HK）也有6 5