北大腾讯团队仅改一行代码即提升AI生成效果20%

时间：2026-01-27 22:55

这项研究由北京大学和腾讯混元实验室共同完成，并于2026年1月发表在计算机视觉领域的顶级学术期刊上。论文编号为arXiv:2601 17124，感兴趣的读者可以通过此编号查找完整的技术细节。想象一下

这项研究由北京大学和腾讯混元实验室共同完成，并于2026年1月发表在计算机视觉领域的顶级学术期刊上。论文编号为arXiv:2601.17124，感兴趣的读者可以通过此编号查找完整的技术细节。

想象一下，你正在烘焙蛋糕，面前有两个不同的烤箱。一个烤箱只能设定几个固定的温度档位，比如低温、中温、高温，这就像是现在AI绘画中的"离散模式"。另一个烤箱可以精确调节到任意温度，就像"连续模式"。长期以来，AI图像生成领域就被这样分成了两个阵营，无法统一比较哪种方式更好。

但北京大学和腾讯混元的研究团队发现了一个巧妙的解决方案。他们注意到，现有的图像编码技术FSQ就像一个可以在两种模式间切换的烤箱，但这个烤箱有个致命缺陷：温度分布不均匀。大多数食物都挤在中间几个温度档位，而边缘的档位几乎用不到，造成了严重的"温度浪费"。

研究团队的洞察力在于，他们发现神经网络处理图像时产生的数据分布就像钟形曲线一样，大部分数值集中在中间，两端很少。但FSQ采用的是平均分布的量化方式，就好比用同样大小的盒子来装不同数量的物品，必然会造成中间的盒子装得满满当当，边缘的盒子却空空如也。

解决这个问题的方法出人意料地简单。研究团队只是将FSQ中的一个数学函数从"tanh"替换成了"2 × sigmoid(1.6x) - 1"，仅仅一行代码的改动。这个看似微小的调整却产生了神奇的效果：它将原本钟形分布的数据重新映射成了均匀分布，就像把挤在中间的物品重新平均分配到所有盒子里。

这种改进后的方法被命名为iFSQ。为了验证效果，研究团队设计了一个精巧的实验。他们用500,000个符合标准正态分布的数据点，测试不同参数设置下的分布匹配效果。结果显示，当参数α设置为1.6时，转换后的分布与理想的均匀分布最为接近，无论是通过均方根误差还是统计学上的KS检验，都明显优于原始的FSQ方法。

更令人惊喜的是，这种改进在图像重建质量上带来了显著提升。在ImageNet数据集上的测试表明，iFSQ在峰值信噪比、结构相似性和感知质量等多个指标上都超过了原版FSQ。即使在从未见过的COCO数据集上测试，同样的改进趋势依然成立，证明了这种方法的普适性。

研究团队进一步探索了这个发现的深层含义。他们发现，在图像生成任务中，存在一个最佳的量化位数"甜蜜点"——4位编码。就像调节相机的分辨率一样，太低会失去细节，太高则浪费存储空间还可能带来噪声。4位编码恰好在保持图像质量和压缩效率之间找到了完美平衡。

基于这个统一的编码框架，研究团队终于可以公平地比较两种主流的AI图像生成方法：自回归模型和扩散模型。这就像终于可以在同一个跑道上比较两款不同的赛车性能。结果发现了一个有趣的现象：自回归模型在训练初期收敛很快，就像起跑时加速迅猛的赛车，但随着训练进行，扩散模型逐渐显示出更强的最终性能，就像耐力更好的长跑选手最终超越了短跑冠军。

这个发现揭示了一个重要的深层原理：自回归模型严格的序列依赖特性虽然让它们在早期表现出色，但也可能限制了它们达到的上限。相比之下，扩散模型虽然起步较慢，但其并行处理的特性让它们有更大的提升空间。

研究团队还深入分析了自回归模型内部的工作机制。他们发现这类模型在处理图像时会经历一个明显的"角色转换"过程：前几层专注于理解当前图像内容，就像先仔细观察眼前的拼图碎片；而后几层则转向预测下一个应该放置的碎片。这种转换通常发生在网络深度的大约三分之一处，这个比例在不同规模的模型中都保持相对稳定。

基于这个观察，研究团队进一步改进了自回归模型的训练方法。他们借鉴了一种叫做"表征对齐"的技术，就像给学生提供标准答案来指导学习一样，让模型的中间层与预训练的视觉特征保持一致。实验证明，当这种对齐发生在网络的第8层（总共24层）时，效果最佳，这恰好印证了前面关于角色转换的发现。

有趣的是，自回归模型对这种指导的需求比扩散模型更强烈。就像一个需要更多监督的学生，自回归模型需要2.0的对齐系数才能达到最佳效果，而扩散模型只需要0.5就足够了。这可能与自回归模型的强制性序列约束有关，需要更强的外部指导来克服这种限制。

这项研究的意义远超技术本身。它不仅提供了一个简单而有效的改进方法，更重要的是建立了一个公平比较不同AI生成方法的平台。就像制定了统一的评价标准，让原本无法直接比较的技术路线有了客观的评判依据。

从实际应用角度来看，iFSQ方法几乎没有增加任何计算成本，却能带来20%以上的性能提升，这种投入产出比在工程实践中极具价值。更重要的是，它为理解和改进AI图像生成技术提供了新的思路：不是一味追求更复杂的模型架构，而是从数据分布的角度思考如何优化现有方法。

这个发现也启发了对AI技术发展路径的思考。有时候，真正的突破并不来自完全颠覆性的创新，而是来自对现有技术深层机制的洞察和巧妙的微调。就像这次研究一样，一行代码的改动背后，是对数据分布、信息理论和神经网络工作机制的深刻理解。

说到底，这项研究最吸引人的地方在于它的简洁性和普适性。在AI技术日益复杂化的今天，能够找到如此简单而有效的改进方案实属难得。它提醒我们，有时候最好的解决方案就隐藏在最基础的原理之中，只要我们愿意深入思考和仔细观察。对于AI图像生成技术的未来发展，这项研究不仅提供了一个实用的工具，更重要的是展示了一种研究思路：通过统一的框架来理解和比较不同技术路线，从而推动整个领域的进步。

Q&A

Q1：iFSQ具体是如何改进FSQ的？

A：iFSQ只是将FSQ中的tanh函数替换为2×sigmoid(1.6x)-1，仅改动一行代码。这个改动将原本钟形分布的数据重新映射成均匀分布，解决了原版FSQ中量化位利用不均的问题，让所有编码位都能得到充分利用。

Q2：为什么4位编码是图像生成的最佳选择？

A：4位编码在图像质量和压缩效率间找到了最佳平衡点。太低的位数会丢失重要的图像细节，太高的位数虽然保留更多信息，但会浪费存储空间并可能引入噪声，而4位恰好能在保持视觉质量的同时实现高效压缩。

Q3：自回归模型和扩散模型在图像生成上有什么区别？

A：自回归模型在训练初期收敛很快，但受到严格序列约束的限制，最终性能上限相对较低。扩散模型虽然起步较慢，但由于其并行处理特性，在充足的训练时间下能达到更高的生成质量，特别适合对最终效果要求很高的应用场景。

来源：https://www.163.com/dy/article/KKAH6M9M0511DTVV.html

代码序列腾讯新论文神经网络知名企业

上一篇苏州大学新突破：注意力机制提升AI语境适应性与对话能力 下一篇上海AI实验室ImgCoder：精准生成科学手绘图的AI利器

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

OpenClaw手机App上线，结果翻车了

OpenClaw 官方宣布，已正式推出 iOS 和 Android 原生移动 App，用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接：把 Agent 放进口袋里，让用户可以在移动端处理频道消息、任务和回复。从功能上看，OpenClaw 移动端并

科技数码 · 2026-07-01

优必选CEO周剑：家庭机器人生态核心投入过半精力

先说几个核心判断：优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上，直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进，现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景，另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间，技术路线尚未收敛

6月30日，申银万国在光连接系列研报中重点指出，MPO光连接器领域的投资机会值得高度关注。通俗来说，随着AI算力集群持续扩张，光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件，如今它直接决定着链路插损、可

科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上，区级部门一次性推出了7个AI“龙搭子”。其中，名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解，依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”，已在今年五一假期发布了内测版本。经过一个月市场验证后，该项目正式启动面向全社会的

科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日，南下资金持续大举买入港股，单日净流入金额高达58 95亿港元。接下来，我们直接盘点哪些个股获得资金青睐、哪些遭到减持：净买入方面，中芯国际领跑全场，单日吸金19 33亿港元；建滔积层板紧随其后，净买入10 59亿港元；腾讯控股获得7 65亿港元净流入；智谱（02513 HK）也有6 5