苹果开源FastVLM与MobileCLIP2浏览器实时视频字幕提速85倍
时间:2026-06-24 11:53
苹果开源FastVLM与MobileCLIP2,体积缩小3 4倍、速度提升85倍,支持浏览器内零安装实时视频字幕,涵盖高分辨率图像描述、OCR、视觉问答、场景理解及情感识别,但VoiceOver无障碍支持尚不完善。
苹果在 Hugging Face 悄然发布重磅更新:FastVLM 与 MobileCLIP2 两款视觉语言模型横空出世。相比前代,模型体积缩小至 1/3.4,推理速度却提升了 85 倍,并已适配 transformers.js,这意味着用户无需安装任何插件,即可在浏览器中通过 WebGPU 加速实时运行视频字幕生成功能。

(该模型能够精准描述 iPhone 屏幕上的内容)
除基础图像描述外,这组模型还支持高分辨率图像处理,覆盖 OCR 文字识别、视觉问答、场景理解等多种复杂任务。例如下面这张公园场景图:

(模型准确识别出圆形公园中央的拱形建筑结构)
更具实用价值的是实时 OCR 功能——不仅可提取图像中的文字,还能理解文字在上下文中的位置关系:

最令人惊讶的是其情感识别能力,就连人物着装与配饰细节都能一一解析:

苹果以往在开源领域较为保守,但此次确实拿出了诚意十足的开源成果。不过需要注意,当前版本对苹果 VoiceOver 的无障碍支持仍有待完善。
模型下载地址:
FastVLM:https://huggingface.co/collections/apple/fastvlm-68ac97b9cd5cacefdd04872e

MobileCLIP2:https://huggingface.co/collections/apple/mobileclip2-68ac947dcb035c54bcd20c47

在线体验链接:https://huggingface.co/spaces/apple/fastvlm-webgpu