先说几个关键结论:主流AI模型在分析职业体育比赛时,表现实在算不上好。北卡罗来纳大学教堂山分校和美国东北大学的研究人员最近搞了个新测试,试图摸清ChatGPT、谷歌Gemini、千问这些模型在感知、推理、模拟和自主行动四个维度上的真实水平。结果呢?除了“看懂画面”这一项勉强及格,其他领域基本是全线溃败。需要提醒的是,这项研究目前还没经过同行评审,但数据摆在这儿,还是挺有参考价值的。

为了测试的严谨性,研究人员特意把职业体育比赛做成了一个全新的基准测试,取名“战略视频智能”(SVI-bench)。数据量相当吓人:囊括了35000小时的篮球、足球和冰球比赛画面,1500万条带标注的比赛回合,15000小时的专业解说分析,23000份赛后报道,外加10.3万条统计记录。可以说是把AI可能需要的“教材”都堆齐了。
那么AI的表现到底如何?先从最基础的感知任务说起——也就是判断比赛某个时刻是哪名球员做了哪个动作。这其实是AI相对最擅长的环节,但即便如此,平均识别准确率也只有74%左右。什么概念呢?放到体育解说场景里,连少年棒球赛的义务解说员恐怕都保不住饭碗。要知道,人类解说员在直播时几乎不会犯这种低级错误。
到了因果推理环节,模型的短板就彻底暴露了。研究人员让AI解释一组战术或一个回合为什么会以某种方式发生,平均成功率直接跌到40%左右。举个例子:研究人员让模型分析NBA太阳队球员科迪·马丁一记三分球的异常之处——这球先打到篮板顶部,然后才落入篮筐。ChatGPT给出的答案是:“这是他本场比赛命中的第一个三分球。”显然,AI完全没理解“打到篮板顶部”这个异常情况的物理意义,只是机械地统计了得分顺序。
模拟能力更是一言难尽。研究人员要求AI根据球员的运动轨迹,预测接下来会移动到哪里。结果表现最好的模型,在预测球员下一步动作时也接近随机猜测水平。一旦预测范围拉长——比如判断球员朝球门或篮筐移动的完整路线——模型的表现还会继续恶化。说白了,就是瞎猜。
共同参与该研究的美国东北大学计算机科学家洛伦佐·托雷萨尼说得直白:“AI无法告诉你事情为什么会发生,也无法告诉你接下来会发生什么。”这话虽然扎心,但确实点出了当前AI能力的核心瓶颈。
最后一项测试是自主分析能力,相当于要求AI像人类体育主播一样,结合赛后数据和趋势做出复杂判断。结果模型的准确率只有5%。这意味着什么?一名优秀的体育解说员,做的远不止描述画面:他们会解释一套战术为什么有效,预判接下来会发生什么,还会判断哪些瞬间真正重要。而研究显示,AI在描述画面这一项上已经相当擅长,但在其他所有能力上全面失守。
托雷萨尼的总结很有分量:“同样的能力差距会出现在任何一类工作中。真正的价值并不在于描述眼前可见的东西,而在于理解事件为什么这样发展、预判接下来会发生什么、判断什么重要,并提出下一步应该怎么做。”这话放在更广泛的行业场景里,同样值得深思。
