游乐游手机版
首页/AI热点日报/热点详情

吴恩达Agent新成果零样本标记实现图片目标检测

类型:热点整理2026-06-30
近期,人工智能领域知名专家吴恩达正式公布了其创业公司的最新成果——Agentic Object Detection(Agent目标检测)。这一消息迅速引发行业关注。 该技术的独特之处在于,完全无需人工标注训练数据。模型仅凭借推理能力,即可在图像中精确定位用户指定的目标物体。 举例来说,给定一张布满草
近期,人工智能领域知名专家吴恩达正式公布了其创业公司的最新成果——Agentic Object Detection(Agent目标检测)。这一消息迅速引发行业关注。

该技术的独特之处在于,完全无需人工标注训练数据。模型仅凭借推理能力,即可在图像中精确定位用户指定的目标物体。

举例来说,给定一张布满草莓的图片,当输入提示词“未成熟的草莓”后,AI模型仅需快速扫描并短暂思考(目前耗时约20至30秒),便能逐一框选出那些尚未成熟的果实。

吴恩达指出,传统的视觉AI若要识别物体,必须先在海量标注数据上进行训练,过程费时费力。而新方法截然不同:AI只需瞥一眼图像,经过短暂“思考”后,便可直接输出准确结果。

这种“通过推理实现零样本标记”的思路令众多网友赞叹不已。人们普遍意识到,其背后的应用潜力十分巨大。

此外,该AI工具目前面向所有人免费开放(同时也为开发者提供了API)。消息发布仅数小时,网友们的试玩反馈便纷至沓来。

网友踊跃试玩实测

我们先回顾一下吴恩达在发布时的介绍。在他看来,Agentic Object Detection从根本上颠覆了目标检测的传统流程。

传统视觉AI目标检测流程复杂:需人工绘制大量边界框来标注数据,再以此训练神经网络。而新系统直接跳过了这一耗时环节,将感知、规划、执行等模块融合,通过调用多种工具并对任务进行推理,最终实现了零样本的输入输出。

按他的比喻,这相当于“睁眼版”的o1或DeepSeek R1——看一眼,随即思考并作答。

演示过程中,除草莓识别外,他还展示了其他几个案例,颇有“大家来找茬”的意味。

  • 识别配备双引擎的飞机。
  • 在超市货架上定位特定品牌麦片。 例如找出家乐氏产品。
  • 更实用的场景: 当你在家找不到物品时,可召唤它协助搜寻,比四处求助效率更高。

当然,网友们的集体“交作业”环节更加热烈。整体上,大部分测试案例均取得成功。

  • 简单案例:在板球比赛中识别击球手(batsman)。
  • 或检测特定应用程序的界面元素。
  • 又如,从航拍图像中找出荒漠中的绿色植被。
  • 日常生活场景中,AI成功从一盘食物中定位到了寿司。但也有网友反馈,寻找货架上的汽水时,提示词必须精确到“芬达”品牌才能成功,仅说“汽水”无效。

  • 更高难度案例:分别识别美式足球中的进攻方与防守方球员,经上下验证,结果一致。
  • 甚至能快速找到微型飞镖。

不过,有成功就有翻车。也有网友分享了少部分失败案例。

  • 例如搜索“戴帽子的人”时,AI明显漏掉了一名戴帽子的23号球员。
  • 此外,AI无法识别图像中的矩形,例如地面上的明显矩形标记。

网友总结表明,Agentic Object Detection当前对物体遮挡、光线过曝等常见问题尚无法完美应对。例如,前文草莓识别中,有细心的网友发现,AI将一个光线欠佳的成熟草莓误判为“未成熟”。吴恩达本人也强调,这仍属初步尝试,后续将持续优化检测质量与响应速度。

源于吴恩达第二个创业项目

众所周知,吴恩达于2017年离开百度后,便积极投身AI创业浪潮。目前他旗下已知的人工智能项目共有三个。

2017年6月,他发布了第一个创业项目Deeplearning.ai,专注于AI教育,提供深度学习课程与资源,助力大众学习AI技术。他目前仍担任斯坦福大学计算机科学客座教授。

随后,他推出了第二个创业项目Landing.ai,致力于帮助企业实现人工智能转型。据当时介绍,其目标是通过AI技术提升企业效率,重点解决制造业痛点,如提高生产效率、优化供应链、减少浪费等。Landing.ai随后与富士康等企业建立了战略合作。

本次发布的Agentic Object Detection,从官方视频可见,正出自Landing.ai项目。这暗示该工具很可能面向B端应用场景。

几乎同时,他于2018年成立了第三个创业项目AI Fund,这是一家专注投资人工智能初创企业的基金,初始规模达1.75亿美元,投资方包括NEA、红杉资本、软银等知名机构。

近来,吴恩达更是对Agent智能体重点布局。早在去年初,他便通过Deeplearning.ai平台预言:Agent工作流将超越下一代基础模型,推动AI取得巨大进步。他当时指出,大语言模型(LLMs)在零样本模式下工作,而Agent通过执行规划、执行、反思等步骤,可能实现比单次推理更优的效果。

如今,这些新成果正逐步接受实践检验。

那么,你认为这一技术还有哪些潜在的应用场景呢?

来源:https://www.53ai.com/news/MultimodalLargeModel/2025020804521.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。