游乐游手机版
首页/业界动态/文章详情

ICRA 2026机器人控制KAN We Flow?

时间:2026-05-29 13:10
KAN-We-Flow用RWKV与KAN替代UNet骨干,参数量减少86 8%,推理延迟降至毫秒级,实现100Hz实时控制。在Adroit、Meta-World、DexArt三个基准上成功率最优或并列最优,高难度长时序任务优势明显。

先给出几个核心判断:在机器人三维操作领域,扩散策略虽然具备较强的建模能力,但推理速度慢、模型体积大,落地难度几乎是行业共识。流匹配策略虽然已经取得一定进展,但大多数方法仍然死守UNet骨干架构,计算负担和推理延迟依然居高不下。

那么,有没有可能在保持性能的同时,把模型做得更小、跑得更快?

ICRA 2026|KAN We Flow?(机器人控制)

一、整体概述

本文要介绍的KAN-We-Flow,正是针对这一问题提出的解决方案。它的思路非常直接:用RWKV加KAN替代传统的大规模UNet骨干网络。结果如何?参数量削减了约86.8%,推理延迟压缩到毫秒级,关键在于——成功率不仅没有下降,反而在Adroit、Meta-World、DexArt三个主流基准上取得了当前最优或并列最优的成绩。

可以这样理解:在保持甚至提升操作精度的前提下,将模型从“重型卡车”换成了“跑车”,并且真正实现了实时控制。

ICRA 2026|KAN We Flow?(机器人控制)

二、研究背景

先来看一下这个领域目前面临的主要瓶颈。

扩散式策略的优点在于动作分布建模能力强,生成的动作更加平滑自然。但代价也很明显:多步去噪、推理慢、模型重,一旦部署到真实机器人上,延迟根本无法承受。

流匹配策略算是一个改进方向,它通过学习一步向量场实现快速生成。然而,现有的流匹配方法依然普遍依赖UNet这类庞大结构,计算和存储开销仍然不小。

因此核心问题其实非常明确:如何在保证精度的前提下,进一步压缩模型大小,同时提升实时性?

ICRA 2026|KAN We Flow?(机器人控制)

三、动机直觉

讲完问题,再看驱动这个方案的直觉。其实并不复杂:

RWKV的线性复杂度时序建模能力,天然适合机器人的长时序动作预测;而KAN通过可学习的一维函数逼近,可以用更少的参数表达更复杂的非线性映射。将两者结合,目标就是同时解决“长时序依赖”和“参数效率”这两个痛点。

换句话说,与其在UNet的大框架下修修补补,不如直接换一个更轻量、更高效的骨干架构。

ICRA 2026|KAN We Flow?(机器人控制)

四、技术路线

整体框架遵循“一致性流匹配”路线,目标是实现一步动作生成。输入包括点云感知信息、机器人当前状态以及时间编码。

核心网络部分采用RWKV-KAN骨干架构。其中,RWKV负责时间与通道混合,专门建模动作序列的上下文;GroupKAN则对特征通道进行分组,做非线性的函数校准,直接替代传统MLP。

值得特别提及的是Action Consistency Regularization(ACR)。它通过欧拉外推,让一步预测的动作在末端与专家轨迹对齐。这相当于在训练阶段提供了一层额外的监督,能稳定训练,关键是——推理阶段完全没有任何额外开销。

最终的学习目标也很清晰:把一致性流匹配损失与ACR正则项联合起来进行端到端训练。

ICRA 2026|KAN We Flow?(机器人控制)

五、实验结果

从性能来看,在Adroit、Meta-World、DexArt三个基准上,KAN-We-Flow的整体成功率均优于FlowPolicy和DP3。尤其在高难度、长时序的任务上,优势更为明显。

效率方面的数字更直观:参数量约33.6M,相比DP3减少86.8%;推理时间仅8到11毫秒,足以支撑100Hz的实时控制。

消融实验的结果也符合预期:RWKV、GroupKAN和ACR三个组件对性能都有稳定的正向增益。其中,ACR在长预测窗口下能够明显抑制动作漂移问题。

来源:https://www.leiphone.com/category/robot/LO83pDQxVKyCGICF.html
上一篇特斯拉4月加拿大销量3800辆同比激增150%创近两年新高 下一篇直播微单横评:五款机型谁更懂视频创作者
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
诺基亚TA-1619入网:1400mAh电池双卡双待新机
业界动态 · 2026-07-01

诺基亚TA-1619入网:1400mAh电池双卡双待新机

诺基亚又有新动作了。7月1日消息,一款型号为TA-1619的诺基亚新机已经拿到了电信设备进网许可,不过证件照目前还没公布。 从入网信息来看,这是一款TD-LTE数字移动电话机,支持TD-LTE网络,属于LTE单天线终端设备。双卡双待、VoLTE语音模式都支持,终端款式为直板。核心配置方面,电池额定容

芯佰微CBMRF900系列国产射频芯片突破海外壁垒
业界动态 · 2026-07-01

芯佰微CBMRF900系列国产射频芯片突破海外壁垒

芯佰微电子发布CBMRF9002和CBMRF9009两款射频收发芯片,采用直接变频架构,覆盖10MHz至7250MHz频段,支持最大450MHz带宽及JESD204B高速接口,性能对标国际,满足5G基站与卫星通信等高端需求,突破海外技术壁垒。

月起私人充电桩可卖电 每度净赚5毛
业界动态 · 2026-07-01

月起私人充电桩可卖电 每度净赚5毛

近期有一则重大利好消息,值得新能源车主们特别留意——车网互动价格机制改革已正式落地。自7月1日起,湖北武汉的新能源车主,可在家中的私人充电桩上通过“卖电”轻松赚钱。具体而言,就是借助峰谷电价差,实现低买高卖,每度电净收益约5毛钱。过去,车网互动(V2G)基本只局限于特定的公共充电站,受试点规模限制,

谷歌发布Nano Banana 2 Lite 4秒出图1元4张
业界动态 · 2026-07-01

谷歌发布Nano Banana 2 Lite 4秒出图1元4张

先说几个关键信息:谷歌DeepMind又给图像生成赛道添了新选项。7月1日发布的消息,Nano Banana 2 Lite正式亮相。这个名字听起来像是水果命名系列大爆发,实际上它的技术代号是Gemini 3 1 Flash Lite Image,属于Gemini 3 1家族。最大的卖点就两个:快,便

技嘉专业电竞装备助力2025 CFS世界总决赛
业界动态 · 2026-07-01

技嘉专业电竞装备助力2025 CFS世界总决赛

2025CFS世界总决赛将于12月3日至14日在重庆举行,来自四大赛区的16支战队参赛。技嘉AORUS作为赛事设备合作伙伴,以主板、显示器等专业硬件保障比赛稳定流畅,并通过赛事反哺研发的闭环模式支持电竞发展。