首页 游戏 软件 资讯 排行榜 专题
首页
科技
上海AI实验室突破:用视频驱动让AI理解网页交互

上海AI实验室突破:用视频驱动让AI理解网页交互

热心网友
41
转载
2025-10-22
来源:https://www.itbear.com.cn/html/2025-10/994724.html

看似简单的网页交互——按钮点击跳转、表单提交反馈、鼠标悬停显示——这些我们习以为常的操作,却让当前最先进的AI模型陷入了困境。来自上海AI实验室与浙江大学、中国科学技术大学深圳分校等机构的研究团队,通过一项突破性研究揭示了AI在理解动态网页方面的根本局限性,相关成果已发表于arXiv平台(论文编号:2509.24709)。

传统AI训练方式如同让画家仅凭一张照片临摹整幅画作。研究者通常向模型展示网页静态截图,要求其生成对应代码,却忽略了点击、滚动等操作引发的动态变化。研究团队一针见血地指出:"这就像通过房屋照片设计建筑图纸,却不知道门如何开关、电路如何连接。"为此,他们创造性地提出让AI观看完整用户操作视频,通过观察交互过程理解网页运作逻辑。

基于这一理念,团队构建了名为IWR-Bench的评测体系。该基准包含113个真实任务场景,覆盖电商、教育、游戏等五大领域,按交互复杂度分为四级:从简单的页面滚动(L1)到完整的在线游戏开发(L4),按视觉复杂度分为极简布局(V1)到数据仪表盘(V4)。每个任务配备操作视频、静态资源及详细标注,为防止模型"作弊",所有资源文件均重命名为随机编号。

研究团队对28个主流AI模型展开全面测试,结果暴露出显著短板。表现最优的GPT-5仅获36.35分(满分100),其视觉还原度达64.25分,但功能性评分骤降至24.39分。这意味着模型能生成外观相似的网页,却无法实现按钮点击、表单提交等基础交互。开源模型表现更弱,多数得分低于20分,显示商业模型与开源方案存在代际差距。

测试揭示五大核心挑战:时序理解不足导致操作时序混乱;状态管理缺陷造成多步骤流程中断;动态资源匹配错误引发显示异常;代码生成缺陷导致功能缺失;长上下文处理能力有限造成信息丢失。例如在订票流程测试中,模型能显示页面但无法正确传递表单数据;在游戏测试环节,能渲染界面但无法实现计分逻辑。

研究团队开发的智能评测系统突破传统方法局限。该系统通过程序化交互测试验证功能完整性,模拟用户点击、输入等操作并检查预期反应;采用多层次视觉分析评估美观性,结合光学字符识别与深度学习特征提取;引入大型语言模型进行语义评估,从用户体验角度综合打分。这种立体化评测首次实现了功能与美观的双重量化。

技术分析显示,视频理解专用模型(如VideoLLaMA-7B)得分仅13.67分,反而低于通用多模态模型,证明单纯强化视频处理能力不足以解决交互理解问题。配备"思维链"功能的模型版本表现略优,但提升幅度有限,表明当前推理增强技术尚未触及问题本质。

这项研究为AI开发范式转型提供关键依据。研究指出,未来需构建专门处理时序交互的新型架构,整合分层时序建模与多模态对齐技术;开发渐进式训练方法,从简单交互逐步过渡到复杂系统;建立更大规模、更高质量的訓練数据集,扩展任务覆盖范围。自动化评测框架的建立,则为行业提供了标准化评估工具。

在应用层面,该技术成熟后将彻底改变软件开发模式。普通用户可通过操作演示直接生成网页应用,降低技术门槛;教育领域可借助动态学习过程提升教学效果;企业开发中,AI生成的初始代码框架可加速原型设计。这种变革类似于从专业摄影设备到智能手机的影像技术普及,将数字创造力赋予更广泛人群。

研究团队强调,当前技术距离实用化仍有较大差距,但已证明基于视频的交互理解是可行方向。通过建立三维分类评测体系、开发智能评估系统、识别关键技术瓶颈,这项研究为后续突破奠定了方法论基础。完整技术细节可查阅arXiv:2509.24709论文。

免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

点灯
点灯
休闲益智 10-22
猛鬼宿舍内置mod菜单
猛鬼宿舍内置mod菜单
棋牌策略 10-22
武圣关云长手游
武圣关云长手游
棋牌策略 10-22
口袋山海经手游
口袋山海经手游
棋牌策略 10-22

热门推荐

PS5 Pro国行10月29日发售,5599元起预购开启
科技
PS5 Pro国行10月29日发售,5599元起预购开启

索尼互动娱乐(上海)有限公司正式宣布,PS5 Pro国行版本将于10月29日在大陆地区上市,建议零售价为5599元,产品即日起开启预售。在2024年10月21日20时30分至11月11日23时59分

热心网友
10.22
索泰2.65升迷你要塞PC发布:搭载Arrow Lake与Blackwell处理器
科技
索泰2.65升迷你要塞PC发布:搭载Arrow Lake与Blackwell处理器

索泰推出全新MAGNUS EN系列迷你PC,型号为EN275060TC的准系统机型。该设备体积仅为2 65升,采用紧凑设计,外形尺寸为210毫米×203毫米×62 2毫米,支持壁挂安装,适用于空间有

热心网友
10.22
广汽与华为跨界合作:共创高端汽车品牌新格局
科技
广汽与华为跨界合作:共创高端汽车品牌新格局

10月21日,广汽集团董事长冯兴亚表示,目前已有数百名华为员工长期入驻“启境”项目团队,双方深度融合、协同推进,携手打造这一全新品牌。华为全程参与产品定义与用户体验设计,提供全面技术支持,深度助力品

热心网友
10.22
Coinbase交易所官网入口 Coinbase官方网站访问
web3.0
Coinbase交易所官网入口 Coinbase官方网站访问

Coinbase交易所官网入口在哪里?这是不少投资者都在寻找的,接下来由PHP小编为大家带来Coinbase官方网站访问方式,想要了解该平台特点与使用优势的朋友,一起随小编来瞧瞧吧!

热心网友
10.22
AI Agent如何提升软件研发效能?五大优势解析
AI
AI Agent如何提升软件研发效能?五大优势解析

2025 年是 Agentic AI 应用的元年,AI4SE(Artificial Intelligence for Software Engineering)能提升效率在行业内形成了高度共识,但在

热心网友
10.22