首先分享几项关键发现:OpenAI推出的o3模型正重塑人们对AI视觉能力的认知。当业界还聚焦于文本生成与逻辑推理时,o3已悄然进化为一款“地理定位专家”——仅需一张照片,便能精确判断拍摄地点。
不仅如此,o3甚至直接给出了酒店详细地址:One Ritz-Carlton Drive, Dana Point, CA 92629,并附带了大致经纬度坐标(北纬33.482°,西经117.721°)。
有网友通过谷歌地图验证后确认,o3的答案完全准确。
这不禁引发遐想:若将o3的图像识别能力与全球综合数据库相结合,这款AI是否就能识别出地球上的任意位置?
随后,众多网友纷纷上传自己拍摄的照片,让o3尝试判断拍摄地点。
例如下面这张图片,o3给出的判断结果是美国亚利桑那州佩森市北部的Water Wheel Falls(即Ellison Creek Cascades)。

那么,o3是如何推理的呢?核心在于其视觉逻辑链条——它不会直接输出单一答案,而是系统列出沿途路标、植被类型、地形特征等线索,逐步缩小范围,最终锁定可能性最大的地点。
挑战进一步升级。英伟达研究员Zhaocheng Zhu展示了一组使用长焦镜头拍摄的照片,他特意移除了EXIF数据,并关闭了o3的记忆功能。

有趣的是,网络上大多数图片均为广角拍摄,因此这张长焦照片对o3而言难度极高。Zhu坦言,若非亲自透过镜头观看这一角度,他自己也无法辨认出具体位置。
最终,o3成功猜中了答案。

再比如下图,o3不仅精准定位了拍摄地点,还识别出画面中的山峰是圣罗莎山脉。

随着难度持续提升,o3列出了三个备选地点,其中包含正确答案——查尔瓦高地。

最终,在下面这张照片上o3出现了失误。这是一幅加拿大山脉的鸟瞰图,o3误判为瑞士阿尔卑斯山。原因不难理解:航拍照片在训练集中占比极低,这类视觉特征对模型而言确实是盲区。

值得关注的是,o3的能力不仅限于海外地理定位。一位国内开发者上传了上班途中随手拍摄的照片,o3逐步分析后给出了精确位置——山东省青岛市市北区重庆南路47号。





有人提出了质疑:是不是照片里本来就带了定位信息?
开发者Nanyi对此进行了解释:iPhone拍摄的照片信息仅包含拍摄参数,并未记录地理位置数据。o3应该是先通过“鲁U”车牌推断出青岛,再根据画面中的小海豚雕塑搜索周边店铺,进而结合百度地图与青岛本地宝找到附近邮局,最终确定了具体位置。

需要特别说明的是,截图显示图片信息中确实不包含位置标签。
回到开篇的问题:这仅仅是2025年的o3模型表现。未来的AI模型,又将展现出何等强大的能力?
