00后团队为上汽研发机器人眼球,实现主动机器视觉
近日,上海交通大学杨佳澍和所在团队开发出一款名为 EyeVLA 的机器人眼球系统,让机器人拥有了真正的主动视觉。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
假设你想让扫地机器人看看沙发下有没有玩具车,有了 EyeVLA 机器人就可以灵活地调整视角和焦距,不需要凑进去看,这种能力让机器人在许多实际任务中变得更加有用,比如可以在仓库里不需要移动位置找货、在工厂里检查零件,甚至帮助老人在杂乱的环境中找到需要的药品。

(来源:https://arxiv.org/abs/2511.15279)
在一个测试里,杨佳澍等人让机器人辨认一下放在盒子里的笔的品牌。普通的固定摄像头根本无法拍摄到笔身的细节,而 EyeVLA 通过自动转动和放大,让笔身上的小字清晰可见,最终准确识别出了品牌。
类似的应用场景还有很多,比如可以帮你找钥匙和检查窗户是否关好,可以在工业流水线上识别细小的零件缺陷,可以协助药师在药店快速寻找目标药品等。

图 | 杨佳澍(来源:杨佳澍)
无需人工引导或控制,只需给定指令即可自主完成观察
EyeVLA 搭载了一个精巧的系统,让机器人可以根据语言指令自主调整视角,这个系统主要由三部分组成:一个可以水平旋转、垂直俯仰的 2 维云台,一个可以变焦的摄像头,以及一个智能大脑,这个大脑是一个经过特殊训练的多模态大模型,能够同时理解图像、语言并生成具体动作。
机器人的每个动作,比如向左转 5 度、向上抬 3 度、放大 1.2 倍,都需要被转换成计算机能够理解的格式。杨佳澍等人设计了一种高效的动作编码方式,把连续的动作数值分层编码为基本的动作词,就像我们使用字母拼成单词一样。这样做的好处是,机器人可以使用更少的信息来表达更加精确的动作,同时有更强的语义性,便于模型学习。
当你对机器人说请看清楚那个蓝色盒子的标签时,EyeVLA 会首先分析这句话的含义,再结合当前摄像头拍到的画面,判断该如何调整视角。它会自动计算出需要转动多少角度、放大多少倍,才能让标签清晰地出现在画面中心。这个过程是实时、连续和闭环的,就像我们使用时鼠标拖动电子地图以及放大查看细节一样自然。
相关论文的第一作者杨佳澍告诉 DeepTech:“尽管近期有其他团队使用云台电机进行感知探索,但我们的系统在扩展性、可靠性及开放场景下的完全自主性方面具有明显优势。我们是首个在完全开放场景下基于变焦相机实现语言指令驱动视觉感知的系统,无需人工引导或控制,只需给定指令即可自主完成观察。”

(来源:https://arxiv.org/abs/2511.15279)
小到找钥匙、大到医疗辅助均可使用
手动收集真机数据往往成本高昂,为了降低成本让机器人学会这套视觉动作,杨佳澍等人使用了包含两个阶段的训练方法。
第一个阶段是模仿学习,他们先是收集了少量真人操作机器的数据,记录下真人在不同指令下是如何调整视角的。接着,利用这些数据批量合成了模拟数据,让模型在虚拟数据中进行对齐,初步建立起语言、视觉、动作之间的关联。
第二个阶段是强化学习。这时,模型开始在真实数据中试错。每当做出一个动作,系统就会根据它是否看得清楚来给出奖励或惩罚。这样一来,就能在复杂场景中让机器人逐渐学会做出更鲁邦的视角调整。
当前,我们大都习惯了使用手机拍照:手机会自动对焦和调整亮度,拍摄出来清晰的照片。但是,传统的机器人视觉系统更像是一台固定在三脚架上的老式相机,它只能从一个角度、一个距离拍摄,既不能转动、也不能拉近拉远。
这就导致如果机器人要观察的目标很小、或者离得很远,它就很难看清楚。比如,想让机器人看看书架第二层那本书的书名,如果书名字体很小,普通的机器人摄像头可能只能拍摄出来一团模糊的像素,根本认不出来是什么字。
而该团队意识到,要让机器人真正地看懂世界,就不能让它被动地接收图像,而是让它主动地获取详细的信息,就像人类会转头、走近、眯起眼睛或瞪大眼睛观察事物一样。这就是主动视觉的核心思想,机器人也应该学会怎么去看,而不仅仅是看到了什么。

(来源:https://arxiv.org/abs/2511.15279)
杨佳澍表示:“现有机器人往往在机械臂前端或者固定支架上安装固定摄像头,但由于机械臂体积和活动范围等限制,无法深入狭窄或危险区域观察目标细节(如文字、纹理)。我们的方法通过纯光学变焦调整,可在机械臂无法触及的场景中实现视觉感知,避免进入杂乱或危险环境,拓宽了机器人视觉的应用范围。”
参考资料:
相关论文 https://arxiv.org/abs/2511.15279
运营/排版:何晨龙
相关攻略
IT之家 4 月 1 日消息,科技媒体 Appleinsider 昨日(3 月 31 日)发布博文,聚焦苹果公司最新获批的专利,名为“带呼气传感系统的电子设备”,暗示未来 iPhone 有望直接内置
3 月 30 日,vivo 于云南丽江举办 X 系列春季新品发布会,正式推出 vivo X300 Ultra、vivo X300s 两款旗舰新品。其中定位专业 V 单的 X300 Ultra,完全依
IT之家 4 月 1 日消息,OPPO Find 系列产品负责人卓世杰昨日表示:我可以肯定地告诉大家,今年 Find X10 Ultra 不会上市,大家别再轻信谣言了。OPPO x 哈苏影像新品联合
继去年10月发布主打影像能力的X300、X300 Pro之后,vivo于3月30日正式推出X300系列全新旗舰——X300 Ultra与X300s。值得注意的是,vivo X300 Ultra(12
作者丨邱晓芬编辑丨苏建勋3月30日,vivo发布了其年度影像旗舰vivo X300系列两款机型,包括定位为“专业影像工具”的X300 Ultra、以及主打“全能旗舰”的X300s。据介绍,vivo
热门专题
热门推荐
《三国:天下归心》香香连击队全面解析:后期最强阵容搭配攻略 在策略手游《三国:天下归心》中,如何打造一支能够主宰战局的后期王牌队伍?本篇将为您深入剖析以孙尚香为核心的“香香连击队”终极搭配方案。该阵容由孙尚香、蔡文姬、貂蝉三位核心武将构成,其独特之处在于通过蔡文姬与貂蝉的完美辅助联动,极大化触发孙尚
爱奇艺极速版营业执照信息查询全攻略 在使用爱奇艺极速版应用时,无论是出于消费保障、商务合作考量,还是日常维权需要,核实其背后的实际运营主体与工商信息都是十分必要的环节。查询其营业执照信息有着明确且可靠的操作路径,可以帮助用户清晰了解服务提供方的合法资质。 官方权威途径:国家企业信用信息公示系统查询
在《红色沙漠》的“堕落之神”任务中,古代闪电装置的解谜环节是挑战巨化泰坦BOSS前的核心难点。整个电塔谜题由五座塔构成,其核心在于正确的激活与连接顺序。为了让各位冒险家能快速通关,本篇攻略将详细解析闪电塔的正确操作步骤。咱们这就开始,一步步点亮所有的电塔。 《红色沙漠》堕落之神任务:闪电塔解谜全流程
洛克王国炽心勇狮全面解析:技能、获得方法与实战指南 在《洛克王国》的众多宠物中,炽心勇狮以其传奇守护者的身份和强大的火焰力量而备受瞩目。作为火系宠物的代表之一,它的核心特征在于那颗永不熄灭的火焰心脏,这不仅是它力量的象征,更是其所有强大技能的能量源泉。由炽心勇狮喷发出的烈焰,拥有随着战斗进程而不断增
洛克王国公平鸽图鉴详解:裁判型宠物的属性技能与获取攻略 在洛克王国的众多宠物当中,公平鸽以其鲜明的裁判官形象与独特的对战定位,成为了许多玩家关注的对象。这只严格恪守自身准则的宠物,完美诠释了何为“公正严明”。它的行事守则堪称一套独特的生存哲学:执着于介入每一场争执,绝不因任何原因延误“出庭”,坚持做





