该技术的独特之处在于,完全无需人工标注训练数据。模型仅凭借推理能力,即可在图像中精确定位用户指定的目标物体。
举例来说,给定一张布满草莓的图片,当输入提示词“未成熟的草莓”后,AI模型仅需快速扫描并短暂思考(目前耗时约20至30秒),便能逐一框选出那些尚未成熟的果实。
吴恩达指出,传统的视觉AI若要识别物体,必须先在海量标注数据上进行训练,过程费时费力。而新方法截然不同:AI只需瞥一眼图像,经过短暂“思考”后,便可直接输出准确结果。
这种“通过推理实现零样本标记”的思路令众多网友赞叹不已。人们普遍意识到,其背后的应用潜力十分巨大。
此外,该AI工具目前面向所有人免费开放(同时也为开发者提供了API)。消息发布仅数小时,网友们的试玩反馈便纷至沓来。
网友踊跃试玩实测
我们先回顾一下吴恩达在发布时的介绍。在他看来,Agentic Object Detection从根本上颠覆了目标检测的传统流程。
传统视觉AI目标检测流程复杂:需人工绘制大量边界框来标注数据,再以此训练神经网络。而新系统直接跳过了这一耗时环节,将感知、规划、执行等模块融合,通过调用多种工具并对任务进行推理,最终实现了零样本的输入输出。
按他的比喻,这相当于“睁眼版”的o1或DeepSeek R1——看一眼,随即思考并作答。
演示过程中,除草莓识别外,他还展示了其他几个案例,颇有“大家来找茬”的意味。
- 识别配备双引擎的飞机。
- 在超市货架上定位特定品牌麦片。 例如找出家乐氏产品。
- 更实用的场景: 当你在家找不到物品时,可召唤它协助搜寻,比四处求助效率更高。
当然,网友们的集体“交作业”环节更加热烈。整体上,大部分测试案例均取得成功。
- 简单案例:在板球比赛中识别击球手(batsman)。
- 或检测特定应用程序的界面元素。
- 又如,从航拍图像中找出荒漠中的绿色植被。
- 日常生活场景中,AI成功从一盘食物中定位到了寿司。但也有网友反馈,寻找货架上的汽水时,提示词必须精确到“芬达”品牌才能成功,仅说“汽水”无效。

- 更高难度案例:分别识别美式足球中的进攻方与防守方球员,经上下验证,结果一致。
- 甚至能快速找到微型飞镖。
不过,有成功就有翻车。也有网友分享了少部分失败案例。
- 例如搜索“戴帽子的人”时,AI明显漏掉了一名戴帽子的23号球员。
- 此外,AI无法识别图像中的矩形,例如地面上的明显矩形标记。
网友总结表明,Agentic Object Detection当前对物体遮挡、光线过曝等常见问题尚无法完美应对。例如,前文草莓识别中,有细心的网友发现,AI将一个光线欠佳的成熟草莓误判为“未成熟”。吴恩达本人也强调,这仍属初步尝试,后续将持续优化检测质量与响应速度。
源于吴恩达第二个创业项目
众所周知,吴恩达于2017年离开百度后,便积极投身AI创业浪潮。目前他旗下已知的人工智能项目共有三个。
2017年6月,他发布了第一个创业项目Deeplearning.ai,专注于AI教育,提供深度学习课程与资源,助力大众学习AI技术。他目前仍担任斯坦福大学计算机科学客座教授。
随后,他推出了第二个创业项目Landing.ai,致力于帮助企业实现人工智能转型。据当时介绍,其目标是通过AI技术提升企业效率,重点解决制造业痛点,如提高生产效率、优化供应链、减少浪费等。Landing.ai随后与富士康等企业建立了战略合作。
本次发布的Agentic Object Detection,从官方视频可见,正出自Landing.ai项目。这暗示该工具很可能面向B端应用场景。
几乎同时,他于2018年成立了第三个创业项目AI Fund,这是一家专注投资人工智能初创企业的基金,初始规模达1.75亿美元,投资方包括NEA、红杉资本、软银等知名机构。
近来,吴恩达更是对Agent智能体重点布局。早在去年初,他便通过Deeplearning.ai平台预言:Agent工作流将超越下一代基础模型,推动AI取得巨大进步。他当时指出,大语言模型(LLMs)在零样本模式下工作,而Agent通过执行规划、执行、反思等步骤,可能实现比单次推理更优的效果。
如今,这些新成果正逐步接受实践检验。
那么,你认为这一技术还有哪些潜在的应用场景呢?
