12月13日消息,豆包手机助手官方于今晚发布技术说明,澄清该产品采用系统原生截屏接口,无法截取银行键盘等受保护内容。
据官方说明介绍,近期有网友发布视频称,“豆包手机助手通过READ_FRAME_BUFFER权限,从GPU渲染的图形缓冲区直接拿走图像数据,无需经过上层截图API。它还使用了CAPTURE_SECURE_VIDEO_OUTPUT权限,能够获取银行安全键盘等受保护的界面内容”。官方指出,这是对豆包手机助手技术实现方式的误解。
豆包手机助手采用的是原生截屏接口(WindowManagerService.captureDisplay),严格遵循应用声明的Secure标记,因此无法截取银行安全键盘等被标记为受保护的界面内容。任何持有豆包手机助手技术预览版的用户,都可以自行编写一个包含受保护页面的APP进行测试,并让AI讲解页面内容,以此验证AI确实无法看到受保护信息。
豆包方面进一步解释,网友提到的READ_FRAME_BUFFER权限,是为了让AI能在后台完成操作,豆包手机助手让第三方应用运行在虚拟屏幕空间中。为了获取虚拟屏幕中运行应用的截图内容(对应方法WindowManagerService.captureDisplay)并提供给豆包大模型进行推理,所以需要READ_FRAME_BUFFER权限。但该接口及权限无法读取到包括银行App在内的、任何被第三方应用标记为Secure的保护内容。

关于CAPTURE_SECURE_VIDEO_OUTPUT权限的使用,是因为受保护的页面在虚拟屏的投影(即点击灵动岛打开的应用界面)中会显示为黑屏,用户无法查看和操作,所以需要此权限将受保护的内容正常展示给用户并能够被用户操作。但在投影后,受保护的页面仍会标记为Secure,仅能被用户查看,无法被截屏。
豆包手机助手操作手机功能的实现原理是:用户下达指令 -> 截屏发送至云端豆包大模型 -> 模型理解后返回具体操作 -> 手机端执行操作指令,不断重复直到完成任务。因此每一步操作后都需要再次截图上传给云端大模型分析,每步操作间隔约为3秒钟。
由于分析界面所需的大模型参数较大,受限于芯片性能暂时无法运行在手机端侧,需要截图上传云端处理。据了解,目前国内多家手机厂商具备AI操作能力的助手产品,也是同样的实现原理,也会使用READ_FRAME_BUFFER等系统权限。
豆包强调,豆包手机助手仅在收到用户指令时才会开始截屏,且无法截取第三方应用带有Secure标记的页面。上传至云端大模型的截图仅用于视觉理解和推理,完成任务后不会存储在云端。
豆包手机助手表示高度重视用户隐私安全,欢迎社会各界提出宝贵意见。团队会以负责任的态度沟通产品技术问题,把安全和信任做好。
