今日,韩国Naver官方正式确认:将全面弃用阿里巴巴Qwen 2.5视觉编码器,转而采用完全自主研发的视觉编码方案。
这绝非一次普通的版本迭代。Naver Cloud于上月初便完成了自研视觉编码器的开发工作,并已着手内部整合。根据规划,未来其全部多模态模型都将搭载这一自主研发的核心技术。
在性能表现方面,Naver自身给出的评估是:新编码器基于原有VUClip技术进行了显著优化,已达到与全球顶级模型Qwen相当的水平。这种直接对标本身就极具说服力。
要理解此事的深远意义,首先需要明确视觉编码器在AI模型中的关键角色。简单而言,它是多模态AI系统中将图像与视频信息转化为可处理数据的核心模块,堪称模型的“视神经”。缺少它,模型便无法理解图片和视频内容。
此事需追溯到年初。当时Naver参与了韩国政府主导的独立AI基础模型项目,在HyperCLOVA X SEED 32B Sync模型中部分采用了阿里Qwen 2.5视觉编码器。这一举动随即引发不小争议——作为韩国本土领先的AI企业,为何要使用中国技术?
争议迅速演变为实质性后果。1月15日,韩国科学技术信息通信部公布首轮评审结果,Naver Cloud因模型原创性及技术独立性不足而直接被淘汰。同期被淘汰的还包括NC AI。
当时Naver的解释是:“视觉编码器可随时更换,并非不可替代的核心部件。”此番说辞看似轻松,但现实却是,四个月后其便推出了自研版本。
新编码器有一项关键差异值得关注——从训练阶段起便以韩语为核心进行设计,实现图像与韩语的直接连接,无需经过中间翻译层。Naver Cloud相关负责人特别强调,在处理涉及韩国地理、文化或专有名词的视觉数据时,新编码器能有效避免信息在翻译过程中失真。这正是本土化的核心价值所在。
然而,仍有一个悬而未决的问题。此前已开源发布的HyperCLOVA X SEED 32B Sync模型,其编码器替换计划目前尚未明确。开源社区的版本仍停留在原有状态。

