首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
上海AI实验室突破:用视频驱动让AI理解网页交互

上海AI实验室突破:用视频驱动让AI理解网页交互

热心网友
16
转载
2025-10-22

看似简单的网页交互——按钮点击跳转、表单提交反馈、鼠标悬停显示——这些我们习以为常的操作,却让当前最先进的AI模型陷入了困境。来自上海AI实验室与浙江大学、中国科学技术大学深圳分校等机构的研究团队,通过一项突破性研究揭示了AI在理解动态网页方面的根本局限性,相关成果已发表于arXiv平台(论文编号:2509.24709)。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

传统AI训练方式如同让画家仅凭一张照片临摹整幅画作。研究者通常向模型展示网页静态截图,要求其生成对应代码,却忽略了点击、滚动等操作引发的动态变化。研究团队一针见血地指出:"这就像通过房屋照片设计建筑图纸,却不知道门如何开关、电路如何连接。"为此,他们创造性地提出让AI观看完整用户操作视频,通过观察交互过程理解网页运作逻辑。

基于这一理念,团队构建了名为IWR-Bench的评测体系。该基准包含113个真实任务场景,覆盖电商、教育、游戏等五大领域,按交互复杂度分为四级:从简单的页面滚动(L1)到完整的在线游戏开发(L4),按视觉复杂度分为极简布局(V1)到数据仪表盘(V4)。每个任务配备操作视频、静态资源及详细标注,为防止模型"作弊",所有资源文件均重命名为随机编号。

研究团队对28个主流AI模型展开全面测试,结果暴露出显著短板。表现最优的GPT-5仅获36.35分(满分100),其视觉还原度达64.25分,但功能性评分骤降至24.39分。这意味着模型能生成外观相似的网页,却无法实现按钮点击、表单提交等基础交互。开源模型表现更弱,多数得分低于20分,显示商业模型与开源方案存在代际差距。

测试揭示五大核心挑战:时序理解不足导致操作时序混乱;状态管理缺陷造成多步骤流程中断;动态资源匹配错误引发显示异常;代码生成缺陷导致功能缺失;长上下文处理能力有限造成信息丢失。例如在订票流程测试中,模型能显示页面但无法正确传递表单数据;在游戏测试环节,能渲染界面但无法实现计分逻辑。

研究团队开发的智能评测系统突破传统方法局限。该系统通过程序化交互测试验证功能完整性,模拟用户点击、输入等操作并检查预期反应;采用多层次视觉分析评估美观性,结合光学字符识别与深度学习特征提取;引入大型语言模型进行语义评估,从用户体验角度综合打分。这种立体化评测首次实现了功能与美观的双重量化。

技术分析显示,视频理解专用模型(如VideoLLaMA-7B)得分仅13.67分,反而低于通用多模态模型,证明单纯强化视频处理能力不足以解决交互理解问题。配备"思维链"功能的模型版本表现略优,但提升幅度有限,表明当前推理增强技术尚未触及问题本质。

这项研究为AI开发范式转型提供关键依据。研究指出,未来需构建专门处理时序交互的新型架构,整合分层时序建模与多模态对齐技术;开发渐进式训练方法,从简单交互逐步过渡到复杂系统;建立更大规模、更高质量的訓練数据集,扩展任务覆盖范围。自动化评测框架的建立,则为行业提供了标准化评估工具。

在应用层面,该技术成熟后将彻底改变软件开发模式。普通用户可通过操作演示直接生成网页应用,降低技术门槛;教育领域可借助动态学习过程提升教学效果;企业开发中,AI生成的初始代码框架可加速原型设计。这种变革类似于从专业摄影设备到智能手机的影像技术普及,将数字创造力赋予更广泛人群。

研究团队强调,当前技术距离实用化仍有较大差距,但已证明基于视频的交互理解是可行方向。通过建立三维分类评测体系、开发智能评估系统、识别关键技术瓶颈,这项研究为后续突破奠定了方法论基础。完整技术细节可查阅arXiv:2509.24709论文。

来源:https://www.itbear.com.cn/html/2025-10/994724.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

OPPO Find X9s Pro首发天马U9 Pro:新一代1nit明眸护眼屏
网络安全
OPPO Find X9s Pro首发天马U9 Pro:新一代1nit明眸护眼屏

4月3日消息,今日,OPPO官微宣布,OPPO Find X9s Pro将首发新一代1nit明眸护眼屏,宣称全场景都护眼。据悉,这块屏幕来自新一代天马天工屏,搭载全新U9 Pro发光基材,从材料、器

热心网友
04.07
Word行间距调整与固定行距设置指南
电脑教程
Word行间距调整与固定行距设置指南

Word行距异常增大可按五步解决:一、重置段前段后间距为0并设单倍行距;二、改用固定值行距(如小四号设18磅);三、清除样式继承并修复Normal模板;四、禁用自动格式更正干扰项;

热心网友
04.07
搭载第二代刀片电池、闪充技术:比亚迪2026款海豹06GT新车主交车仪式开启
科技数码
搭载第二代刀片电池、闪充技术:比亚迪2026款海豹06GT新车主交车仪式开启

汽车4月3日消息,4月3日,“年轻人第一台GT”比亚迪2026款海豹06GT新车交付仪式在深圳举行,作为海洋网又一搭载第二代刀片电池和最新闪充技术的重磅车型,上市售价12 89万元-16 99万元,

热心网友
04.07
埃安 N60 4 月 16 日开启预售:标配 4D 毫米波雷达 + 激光雷达
科技数码
埃安 N60 4 月 16 日开启预售:标配 4D 毫米波雷达 + 激光雷达

汽车4月3日消息,广汽埃安宣布将于 4 月 16 日举办品牌焕新发布会,埃安 N60 汽车将同步开启预售。目前新车已开启盲订,支付 99 元定金可享价值 5088 元礼遇。该车由曾任职于宝马等品牌的

热心网友
04.07
一起教育科技年营收1亿:同比降44%
科技数码
一起教育科技年营收1亿:同比降44%

4月5日消息,一起教育科技(NASDAQ: YQ)日前发布截至2025年12月31日的财报。财报显示,一起教育科技2025年营收为1 06亿(约1520万美元),较上年同期的1 89亿元下降44%。

热心网友
04.07