首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
首届AI交易赛落幕:6团队2周战报,Qwen与DeepSeek盈利,GPT-5亏6000刀

首届AI交易赛落幕:6团队2周战报,Qwen与DeepSeek盈利,GPT-5亏6000刀

热心网友
43
转载
2025-11-30

经过两周的激烈角逐,首届 Nof1 AI 模型交易大赛终于圆满落幕。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这是首个专门为评估 AI 投资能力而设计的基准测试,被誉为"币圈版的图灵测试",由美国人人工智能研究实验室 Nof1.ai 于 2025 年 10 月 17 日正式启动,一直持续至 11 月 3 日结束。

参赛选手是 6 款大模型,分别是 DeepSeek Chat V3.1(DeepSeek)、Grok 4(xAI)、Gemini 2.5 Pro(Google)、GPT-5(OpenAI)、Qwen3 Max(阿里巴巴)、Claude Sonnet 4.5(Anthropic)。

这些模型代表了中美两国闭源和开源供应商的最新技术水平。除 Qwen3-Max 外,所有模型均为启用最高可配置的推理设置,且报告的是开箱即用的性能数据,未进行任何针对特定任务的微调。

每款大模型获得 1 万美元初始资金,使用相同的市场数据和技术指标,自主在 Hyperliquid 上进行加密货币永续合约交易。全程无人类干预,最终评估哪些模型能够在投资上获得最优回报。

它们的操作空间限制为:买入(做多)、卖出(做空)、持有或平仓。可交易的加密货币范围限于 Hyperliquid 上的六种流行货币:BTC、ETH、SOL、BNB、DOGE 和 XRP。之所以选择加密资产的三个实际原因是:市场全天候开放,能够持续观察决策,而不是仅在工作时间内;数据丰富且易于获取,这支持分析和透明的审计;Hyperliquid 快速、可靠,并且极易集成,Hyperliquid 和加密货币是全球性的,它们不太依赖于特定国家或公司。这些模型进行的是中低频交易(MLFT),其决策间隔为几分钟到几个小时,而非微秒级别。

按照比赛规则,所有交易记录、持仓、决策日志和账户余额变化实时公开,观众可通过 Nof1.ai 平台查看动态图表,透明度极高。

比赛结果已出炉,两个国产大模型打了漂亮的一仗。

Qwen3 Max 排名第一,收益率为 22.3%,胜率为 30.2%,总盈亏为 2232 美元,总交易次数为 43 次。DeepSeek Chat V3.1 排名第二,收益率为 4.89%,胜率为 24.4%,总盈亏为 489.08 美元,总交易次数为 41 次。

其余模型均大幅亏损,Claude Sonnet 4.5 亏损 30.81%、Grok 4 亏损 45.3%、Gemini 2.5 Pro 亏损 56.71%、GPT-5 亏损 62.66%。

赛事自启动以来引发广泛关注,连币安创始人赵长鹏也公开评论。

他认为,传统上交易策略通常依赖于独特性,最好是别人没有的策略,这样才能获得优势。如果所有人都用相同的 AI 模型进行交易,可能会导致大家在同一时刻买入或卖出,影响市场动态。

不过,如果足够多的人使用同一 AI 模型,它的购买力可能会通过市场需求本身推动价格上涨。

他还预测,由于 AI 交易的表现引起了关注,未来可能会有更多人开始研究 AI 在交易中的应用,预计交易量会大幅增加。

六款模型交易"个性"各异

从披露的"成绩单"可以看出,这六款模型有着不同的交易"个性"。

Qwen3 Max 整体偏"进攻型",其回报率高达 22.32%,总盈亏为 2232 美元。尽管费用较高(1654 美元),显示其交易频率适中且仓位较大。Qwen3 Max 凭借 30.2% 的胜率和最大盈利 8176 美元,展现了"高风险高回报"的进取型交易策略。其 Sharpe 值为 0.273,证明其风险调整后收益稳定。

紧随其后,DeepSeek Chat V3.1 凭借稳健的表现获得了第二名,回报率为 4.89%,总盈亏为 489 美元。相对较低的交易费用(690 美元)表明其交易次数不多但效率较高。虽然其胜率为 24.4%,但最大盈利高达 7378 美元,表现出其理性、稳健的策略型特点。Sharpe 值为 0.359,为所有模型中最高,显示其出色的风险控制能力。

Claude Sonnet 4.5 表现较为平淡,回报率为 -30.81%,总亏损为 3081 美元。其较低的交易频率(36 次)和仅 25% 的胜率反映出它偏向谨慎的策略,但最大盈利 2112 美元与最大亏损 1579 美元显示出其单笔交易的差异性较小。Sharpe 值为 -0.057,意味着其收益波动较大,风险控制不足。

Grok 4 则以 -45.3% 的回报率和 4530 美元的总亏损,位居第四。它的交易频率为 47 次,Sharpe 值为 -0.118,最大盈利 1356 美元和最大亏损 657 美元表明其操作较为保守,难以抓住市场的大趋势。

Gemini 2.5 Pro 在大赛中表现不佳,回报率为 -56.71%,总亏损为 5671 美元。其 238 次交易次数为所有模型中最高,极度活跃,但胜率仅为 25.6%,Sharpe 值为 -0.566,反映出其过度交易,回报低效。这个模型更像是一个典型的"高频操盘手",缺乏稳定的策略。

GPT-5 以 -62.66% 的回报率和 6266 美元的总亏损,成为表现最差的模型。它的 116 次交易次数虽然较多,但收益极低。胜率为 26.7%,Sharpe 值为 -0.525,表明其交易存在较大波动且亏损严重。最大盈利仅为 270 美元,最大亏损为 621 美元,说明其缺乏有效的市场判断和风险管理。

总体来看,来自中国的 Qwen3 Max 与 DeepSeek 在风险控制与趋势识别上更为领先,而 GPT-5、Claude、Grok、Gemini 等美国系模型则普遍亏损严重。

参考链接:

https://nof1.ai/leaderboard

https://nof1.ai/blog/TechPost1

来源:https://36kr.com/p/3538528076946563
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

G胖退出Valve游戏开发 怕员工不敢反驳
游戏资讯
G胖退出Valve游戏开发 怕员工不敢反驳

V社联合创始人G胖调整角色:从主导开发转向赋能团队,释放创意生产力 近期一则消息引发游戏行业广泛关注:Valve联合创始人加布·纽维尔(“G胖”)在公司内部进行了一次重要角色转型。此次调整的关键原因,与他个人在公司中的特殊影响力息息相关。根据透露,这位创始人决定减少在具体游戏开发工作中的直接深度参与

热心网友
04.05
红魔姜超“冒险爆料”:Pad 新品不是四月就是五月发布,一定不让大家失望
科技数码
红魔姜超“冒险爆料”:Pad 新品不是四月就是五月发布,一定不让大家失望

红魔姜超透露:全新游戏平板将于四月或五月发布,承诺带来惊艳体验 游戏硬件领域即将迎来重磅更新。努比亚红魔游戏手机的产品线负责人姜超,近日通过社交媒体进行了一次颇具悬念的“前瞻剧透”,成功引发了广大游戏玩家和科技爱好者的高度关注。他明确指出,红魔全新一代游戏平板的发布日期已锁定在四月或五月,并使用了“

热心网友
04.05
金铲铲之战S17天煞羁绊效果一览
游戏攻略
金铲铲之战S17天煞羁绊效果一览

金铲铲之战S17天煞羁绊:效果解析与实战应用 在《金铲铲之战》S17赛季中,【天煞】是一个定位独特的专属羁绊,仅由5费英雄“劫”所携带。激活这一羁绊需要特定的前置条件——玩家必须在强化符文选择阶段获得【入侵者劫】。一旦成功解锁,劫将获得全新的技能机制,从而在战局中发挥出颠覆性的作用。 金铲铲之战S1

热心网友
04.05
蓝点工作室被索尼移除 第一方阵容调整
游戏资讯
蓝点工作室被索尼移除 第一方阵容调整

索尼调整第一方工作室阵容,王牌重制团队蓝点工作室正式“退出”核心名单 近日,索尼在其PlayStation Studios官方网站的更新中做出了一项关键调整,引发了游戏玩家和行业观察者的广泛关注:曾凭借《恶魔之魂:重制版》等作品赢得盛誉的蓝点工作室,已不再出现在索尼核心第一方工作室的名单之中。此次页

热心网友
04.05
未来人类 X98W 移动“工作站”笔记本电脑上线官网,4 月内发售
科技数码
未来人类 X98W 移动“工作站”笔记本电脑上线官网,4 月内发售

未来人类X98W移动工作站正式发布:重新定义移动端专业性能的新标杆 在专业移动计算领域,总有一些产品能够打破常规认知。近日,未来人类(TerransForce)正式在其官网上线了全新的X98W高性能移动工作站,并宣布将于本月内全面发售。这款设备的问世,无疑为那些在移动办公环境中仍需要桌面级别强悍性能

热心网友
04.05