自从AI大模型技术问世以来,在互联网上证明“自己是人类”这件事变得越来越困难。互联网行业使用二十多年的验证码系统,在AI面前几乎形同虚设。要知道,整个互联网信任体系的基石就是默认所有访问者都是人类,因此如何区分人与机器,成为科技公司必须攻克的关键难题。

最近有消息称,全球应用最广泛的验证码系统——谷歌的reCAPTCHA,正在测试一种全新的手势验证机制。具体来说,系统要求用户录下一小段挥手视频,然后分析手部运动,提取手指关节、手掌位置等21个关键点的坐标。据官方介绍,这套机制能有效抵御机器人批量注册账号、凭证填充攻击等网络欺诈行为,提升人机识别安全性。
谷歌之所以为reCAPTCHA升级手势验证,归根结底是因为传统的文字和图片验证已经无法阻止AI的破解。早在2024年,美国加州大学欧文分校的研究团队就进行了实证测试,结果发现AI识别验证码的准确率已超过95%,而人类的平均准确率仅为50%到86%。而且,受疲劳、界面模糊、时间压力等因素影响,人类反而更容易出错。

最初,验证码通常显示扭曲的字母让用户辨认,后来随着计算机视觉技术的发展,演变成选择图片。但早期的AI识别图片,本质上是将图片拆解成像素点组成的矩阵,对图片内容的理解能力几乎与幼儿无异。
然而,多模态大模型的出现彻底改变了这一局面。以DeepSeek开放的识图模式为例,AI不仅能精准描述图片中的视觉元素、风格和细节,甚至还能根据简谱推理出一首曲子。说白了,人类如何理解一张图片,AI大模型也能如何理解,而且更快、更准。
如今,AI已经能够精确模拟人类的键盘和鼠标移动轨迹,像真人一样“骗过”验证码系统。有互联网从业者感叹,“AI越来越聪明,未来的验证码可能会复杂到大部分人类都答不出来”。如果继续走正面对抗的路子,验证码要么变成“魔怔”版,要么变得“反人类”——就像12306验证码那样,既难住了机器,也没放过真人。

reCAPTCHA这次推出的手势验证码,并没有选择与AI正面硬碰硬,而是直指AI的软肋——无法精准且高效地还原人类手部。尽管现在用AI绘制宣传海报已是互联网厂商的常规操作,但即便到今天,AI画出的人手也常常出现明显错误。
其实不是AI不给力,而是人类手部实在太复杂了。相比之下,人脸要简单得多:眼睛总是在鼻子上面,嘴巴总是在鼻子下面,结构相对固定,AI很容易找到规律。但手部就不一样了——攥拳是一种样子,比耶是一种样子,拿着杯子又是一种样子。人类的手有20多个关节,能摆出无数种姿势,而且手指之间还经常互相遮挡。

对人类艺术家来说,画手也是肖像或人体素描中的难点。因此AI要理解并捕捉这些精细的几何关系和形态变化,难度相当高。目前一些能力有限的AI大模型很难生成精准的人类手部,更不用说生成包含手势的视频了。通过将动作转化为骨骼点坐标,reCAPTCHA就能轻松分辨出人与机器,进一步提升验证码系统的抗AI能力。
手势验证还有一个额外优势:它需要摄像头(或具备摄像能力的设备),这无形中增加了机器人的运营成本,提高了攻击门槛。
不过,这项新技术并未获得普遍认可。谷歌强调,验证流程结束后不会保留用户手势的任何图片或视频,数据也不会用于其他目的,完成验证后会自动删除。但仍有大批网友担心,这可能是互联网厂商大规模采集用户生物特征的开端。

只要所采集的坐标数据存在被关联的可能性,或者系统在某个环节与用户身份挂钩,就有可能从“挥手验证”演变成对肢体特征的监控。其实这也怪不得网友多疑,毕竟只要有利可图,互联网厂商的底线下滑速度往往快得让人猝不及防。还记得谷歌reCAPTCHA v2吗?它就曾明确“白嫖”用户的劳动力,让用户充当数据标注工。
说到这儿,值得注意的一点是:AI之所以无法准确还原人类手部,与手部数据集匮乏有很大关系。目前全球最大的手部姿态数据集Kaggle只有五十多万张图片,而人脸数据集的平均水平都在数百万张。在这个背景下,谷歌确实有足够的动力去收集用户的手部数据,用来完善自家的Veo视频模型和Nano Banana图像模型。
