首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
傅里叶变换:让机器学习实现更智能的数据生成

傅里叶变换:让机器学习实现更智能的数据生成

热心网友
29
转载
2026-02-04


这些年,人工智能生成文本的方式基本分为两大派系。一派是传统的自回归模型,就像一个人写作文一样,从左到右逐字逐句地往下写,每写一个字都必须看着前面已经写好的部分。另一派是扩散模型,它的工作方式完全不同,有点像在一张写满了乱码的纸上逐步擦除噪音,最后显露出清晰的文字。这个新兴的扩散语言模型派系有个巨大的优势——它可以同时考虑全局的信息,而不是被迫只看前文。理论上,这应该能做出更聪明的文本生成。

但问题来了。虽然扩散模型看起来很灵活,能够以任意顺序生成文本,实际研究却发现这些模型在操作时往往偏好某些特定的位置,这被称为位置偏差。换句话说,模型虽然有自由的权利,但就像一个有选择恐惧症的人,它还是倾向于重复一些习惯性的做法。最糟糕的是,即使强行改变这些习惯,模型的表现也未必会更好。这就像一个天才运动员被迫改变自己的习惯动作,结果反而表现下滑。

来自复旦大学、上海创新研究院和OpenMOSS团队的研究人员最近发表了一项有趣的研究,试图从一个全新的角度破解这个难题。他们没有试图用外部规则去强行纠正模型的坏习惯,而是决定深入模型的内心世界,看看模型本身是否已经有一套合理的逻辑。这项研究发表于2026年1月,编号为arXiv:2601.23182,相信会在语言模型研究领域引起不少讨论。

一、模型内部的频率秘密

要理解这项研究的创新之处,我们首先需要懂得一个概念。当我们说到"频率"时,你可能会想到音乐的高音和低音。同样的思想也适用于文本。如果把一段文本的隐藏特征用数学方式分解,可以分解成不同的"频率成分"。有趣的是,这些频率成分似乎各司其职。

研究团队通过分析一段代码(计算最大公约数的Python脚本)和一段数学推导(关于平方差公式的文字)做了一个启发性的观察。他们提取出了模型最后一层的隐藏状态,然后使用傅里叶变换把这些状态从时间域转换到频率域。傅里叶变换就像一个神奇的显微镜,能让我们看到原本看不见的不同"频率成分"。

当他们把这两个例子的频率分解后,惊人的规律出现了。代码片段中的关键词——比如if、elif、return这样的逻辑骨架——集中出现在低频段。与此同时,具体的函数名称gcd、变量名fib之类的细节信息则躲在高频段。数学推导例子也展现出完全相同的模式。那些引导逻辑的叙述文本是低频的,而具体的数学公式和变量是高频的。

这就像一个建筑工程的比喻。建造一栋房子时,你首先需要确定整体框架和结构——这是低频的"骨架"。只有当骨架稳固后,你才能着手装饰和填充细节——这就是高频的"血肉"。如果你颠倒这个顺序,先忙着装修细节,却还没搭好框架,最后会导致整个建筑摇摇欲坠。

这个发现至关重要,因为它首次在扩散语言模型中证实了这样的关联。低频成分对应的是全局结构,即文本的逻辑骨架,而高频成分对应的是局部细节,即具体的词汇和表达。这不仅仅是一个有趣的现象,更是一个可以利用的线索。

二、"先画草图,再上油彩"的生成策略

既然模型内部已经存在这样的结构信息,研究团队想到了一个想法:为什么不引导模型按照这个自然的顺序去生成文本呢?就像一个画家不是一开始就画细节,而是先勾勒整体轮廓,然后逐步填充细节。

基于这个直觉,他们提出了FourierSampler这个方法。这个方法的核心思想其实不复杂:在生成过程中,用一个在频率空间里移动的"滑动窗口"来逐步引导模型。在生成初期,这个窗口只让模型看到低频信息,所以模型优先生成那些低频的逻辑词汇和结构。随着生成步数增加,窗口逐渐向高频移动,模型开始把注意力转向细节信息。

想象你在做一个复杂的拼图游戏。你不是乱七八糟地把所有碎片都摊出来找,而是有策略地进行。首先,你聚焦在边界片和角落片上,这些帮你确定整体框架。然后,你逐步向内聚焦,处理中间的片段。到了最后,你只需要填补一些细致的细节。FourierSampler的工作原理很相似,只不过它的"碎片"是文本中的不同频率成分。

这个方法实际包含两个巧妙的组件。第一个是翻译过滤评分,这是一个计算标准,用来在每个生成步骤中评估哪些位置应该优先被填充。这个评分基于当前步骤所关注的频率窗口中,各个位置的能量大小。能量越高意味着该位置在当前频率范围内越"重要",因此应该被优先处理。

第二个组件更聪明,叫自适应傅里叶校准器。这个组件的工作是平衡模型的自主决策和来自频率信息的指导。模型本身对何时生成什么词汇有一定的"意见",这来自它在训练中学到的概率分布。如果模型在某个时刻对自己的选择很有信心(意思是不同位置的概率分布很不均匀),那么频率指导就减弱,让模型按自己的想法走。反之,如果模型犹豫不决(各个位置的概率差不多),频率指导就加强,帮助模型找到方向。这就像一个好的教练,在运动员已经充满信心时退后一步,但当运动员迷茫时就站出来指点方向。

三、实验证实了这个聪明策略

研究团队在两类主要的扩散语言模型上测试了这个方法:LLaDA系列和SDAR系列。LLaDA模型采用完全双向注意力机制,而SDAR则使用块状因果注意力。他们在五个不同的基准任务上进行了评估,包括高中数学问题、通用数学问题、编程任务、手工编程题以及一个叫Countdown的推理游戏。

结果相当令人印象深刻。在LLaDA1.5-8B模型上,使用FourierSampler后,在编程基准上提升了20.4%,这是一个显著的改进。在数学基准上也有约7%的提升。整体来看,这个方法使LLaDA1.5-8B的性能达到了50.93分的平均分数,甚至超过了同等规模的自回归模型,比如Llama 3.1-8B-Instruct(48.44分)和Qwen 2.5-7B-Instruct(50.90分)。这是一个非常了不起的成就,因为通常来说,扩散模型的性能要落后于自回归模型。

在更小的模型上,比如SDAR系列,改进更加显著。SDAR-1.7B-Chat在Countdown任务上提升了45.1%,这简直是革命性的进步。即使在不是特别适合的任务上,比如SDAR-1.7B-Chat在HumanEval上的表现,也有14.5%的提升。这表明FourierSampler不是某种特殊的技巧,而是一个广泛适用的原则。

为了验证这个方法确实在做它声称的事情,研究团队进行了一个引人入胜的可视化分析。他们跟踪了一个Fibonacci数列生成任务中的解码过程,画出了在每个生成步骤中,不同位置的"翻译过滤评分"。结果完全符合预期。在生成的早期步骤,代表逻辑骨架的词汇(如if、else、return)获得了最高的评分,因此被优先生成。而那些具体的变量名(fib、n)和数字(0、1)则要等到更晚的阶段才被生成。这不是巧合,而是该方法精心引导的结果。

四、深入理解"结构优先"的逻辑

为什么"结构优先"这个策略如此有效呢?研究团队进行了额外的分析来回答这个问题。他们在一个大规模的文本数据集(WikiText-103)上进行了统计分析,查看不同词性的单词如何分布在频率域中。

结果很有启发性。连词(但是、因为、如果)和介词(在、为了、从)高度集中在低频域。这些词汇的作用是什么呢?它们构成了句子的逻辑框架。一个句子的基本逻辑结构往往由这些词汇决定。相比之下,名词(特别是具体的、指代特定事物的名词)则强烈倾向于高频。名词通常填充逻辑框架中的具体内容。

这个现象完全符合语言学的基本认识。功能词负责建立关系和逻辑,而内容词负责填充具体信息。如果你没有建立好逻辑关系,再多的具体信息也无法组织成有意义的句子。相反,如果逻辑清晰了,即使某些具体细节有小误,整体的句子仍然能被理解。

这就回到了为什么"结构优先"会有效。扩散模型在之前的随意生成中之所以经常出问题,可能正是因为它过早地陷入了细节的泥潭。它可能先确定了一些具体的变量名,然后才想起来要建立代码的控制流。这就像先确定了房间里的家具颜色,才意识到应该先建造房间本身。一旦做出了这样的错误决定,要纠正就很困难了。通过强制模型按照"低频到高频"的顺序进行,我们实际上是在强制它遵循语言的自然逻辑。

五、方法的微妙之处和自适应机制

FourierSampler看起来简单,但其中有很多精心设计的细节。首先,频率窗口的大小必须精心选择。窗口太宽,低频指导会混入太多高频噪音,失去指向性。窗口太窄,模型在每个步骤可以看到的有用信息太少。研究团队为不同的模型选择了不同的窗口大小,这表明这个参数需要根据具体情况调整。

其次,解码块的大小非常重要。研究团队发现,当块越大时,频率分析越准确。这是因为傅里叶变换需要足够的数据才能准确识别频率成分。当块太小时,频率信息会被分散,导致分析不准确。有趣的是,正因为FourierSampler能更好地指导生成,它使得即使增大块的大小(通常会降低性能),模型的表现仍然能够保持甚至提升,这是一个非常有实际意义的发现。

最精妙的设计是自适应权重机制。这个机制的核心思想是:模型自己最了解它什么时候需要帮助。当模型对当前的生成决策很有把握时(体现在不同位置的预测概率差异很大),频率指导权重就自动降低,让模型按自己的直觉走。当模型不确定时(各个位置的预测概率接近),频率指导权重就增加,帮助模型做决定。这种动态的平衡确保了方法既能提供有效的指导,又不会过度干预模型的学习过程。

权重的计算基于过去20个生成步骤中,模型预测概率的方差。研究团队将这个方差进行百分位数转换,最后通过标准正态分布的累积分布函数进行平滑映射,得到一个在(0,1)区间内的权重。这听起来复杂,但目的很简单:让权重的变化平滑自然,避免突兀的跳跃。

六、从另一个角度看:为什么其他方法不够好

要真正欣赏FourierSampler的创新,我们应该看看之前的方法有什么问题。早期的方法大多采用"位置感知"的策略,即根据位置给予不同的生成优先级。但这本质上还是在用人工规则强行纠正模型,而不是从模型内部的结构出发。另一些方法使用奖励模型,即训练一个额外的模型来评估生成质量,然后用这个评估来指导生成。这虽然在某些情况下有效,但计算成本高,而且奖励模型本身可能带入新的偏差。

FourierSampler的根本优势在于,它不是从外部施加规则,而是挖掘了模型本身已经学到的知识。模型的隐藏状态中已经包含了频率信息,而频率信息已经对应了文本的结构和细节。我们所做的一切,就是让这些已有的信息为生成过程服务。这就像一个优秀的企业管理者,不是胡乱添加新的制度,而是发现并激活员工已有的潜能。

七、实际应用前景

这项研究的实际应用前景如何呢?首先,对于代码生成,FourierSampler带来的改进直接翻译为更少的语法错误和逻辑错误。代码的生成本身就遵循"先建立控制流,再填充具体实现"的模式,所以结构优先的策略特别匹配。对于数学问题求解,相似的逻辑成立。解决一道数学题需要先理解问题的整体结构,再推导具体步骤。

其次,这个方法对小模型特别有价值。SDAR-1.7B-Chat虽然参数量不大,但在Countdown任务上的45%提升表明,通过聪明的解码策略,小模型也能做得很好。这对移动设备和边缘计算很重要,因为不是每个人都能运行80亿参数的大模型。

最后,这个研究打开了一扇新的大门。既然频率信息对应到了语义信息,那么是否还有其他的频域特征可以被利用呢?是否可以用频域分析来更好地理解模型为什么会出现某些错误呢?是否可以在训练阶段就加入频域的约束,使模型从一开始就学会这种"结构优先"的生成方式呢?这些都是未来研究可以探索的方向。

八、一些有趣的细节

在深入研究的过程中,研究团队发现了一些有趣的细节。比如,当他们可视化生成过程时,发现模型在生成程序的if语句时,往往会在同一步骤内生成整个条件和冒号,这暗示模型已经学到了if语句的模板。FourierSampler所做的,就是让这种已有的知识在正确的时刻被激发出来。

另一个有趣的观察是,不同的任务类型似乎有不同的"最优窗口大小"。编程任务偏好一个大小,而数学问题偏好另一个大小。这表明,语言不同领域的结构特性可能有所不同,而FourierSampler能够通过调整参数来适应这些差异。

还有一个细节值得注意:即使是在随机采样基线(一个非常简单的生成策略)上,FourierSampler也能带来改进。这表明该方法不是仅仅在某些特定的条件下有效,而是具有广泛的适用性。

Q&A

**Q1:扩散语言模型和传统自回归模型的根本区别是什么?**

A:扩散模型可以同时考虑全局信息,不受"必须从左到右逐字生成"的限制,理论上应该更灵活。但实际上扩散模型存在严重的位置偏差,生成质量往往不理想。相比之下,自回归模型虽然受限,但遵循自然的阅读顺序,实际性能往往更好。

**Q2:低频和高频成分在文本生成中分别代表什么?**

A:通过傅里叶变换分析可以发现,低频成分对应文本的逻辑骨架,比如控制流关键词(if、return)、连词和介词。高频成分对应具体细节,比如变量名、函数名和具体数值。这个对应关系在代码和数学文本中都得到了验证。

**Q3:FourierSampler为什么比其他方法效果更好?**

A:FourierSampler不是从外部强行规则,而是挖掘模型隐藏状态中已有的频率信息,让模型按照自然的"结构优先、细节其后"的顺序生成。这个策略符合语言的自然逻辑,因此特别有效,并且在代码和数学任务上的改进高达20%以上。

来源:https://www.163.com/dy/article/KKSLIK180511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

2026年人类或将失去对人工智能的最终控制权
AI资讯
2026年人类或将失去对人工智能的最终控制权

三天前,《纽约时报》刊登了一篇看似平静却暗藏玄机的深度报道。它没有冲上热搜,也未引爆Hacker News,甚至在中文互联网的讨论中也踪迹寥寥。但恰恰是这篇文章,很可能成为2026年春天乃至未来数年,理解人工智能发展轨迹的一个关键性坐标。 文章的标题平实而直接——《How Do You Measur

热心网友
05.18
6集文献纪录片《辜鸿铭》即将播出
娱乐
6集文献纪录片《辜鸿铭》即将播出

一部展现清末民初文化学者辜鸿铭传奇一生的文献纪录片《辜鸿铭》,将于近日在中央新影发现之旅频道播出。 这部纪录片想做的,是借助影像的力量,带观众穿越百年的世界风云,跨越东西方文化的藩篱,去真正走近并理解辜鸿铭这个人。全片共6集,每集48分钟,从《生在南洋》《认识西洋》《寻祖归宗》,到《文以载道》《西风

热心网友
04.24
【深一度】让城市成为故事“主角”
娱乐
【深一度】让城市成为故事“主角”

一座城市如何被记住? 过去,答案或许是地标建筑;后来,可能是一支精美的宣传片。但如今,风向正在悄然转变——《太原之约》的出现,让我们看到了一种新的可能:城市,正在从“被讲述的对象”转变为“会讲故事的主体”。 从背景板到故事主角:一场叙事的深层变革 一部微短剧,究竟能为一座城市带来什么?《太原之约》开

热心网友
04.23
科氪 | 变革传统同传设备,亮亮视野推出全球首创AR+AI会议翻译系统,部署中关村论坛
科技数码
科氪 | 变革传统同传设备,亮亮视野推出全球首创AR+AI会议翻译系统,部署中关村论坛

在2026中关村论坛主会场,全球首创的AR+AI会议翻译系统正式亮相 2026中关村论坛的主会场,迎来了一项突破性部署。亮亮视野与智谱AI联合推出并落地了全球首个AR+AI会议翻译系统,为大会主论坛及多场平行论坛提供了核心的翻译保障。这套系统深度融合了AR眼镜与大模型能力,其指标颇为亮眼:支持54种

热心网友
04.18
中关村论坛这套AR+AI翻译系统,有望拆掉国际会议的“信息围墙”|聚焦中关村论坛
科技数码
中关村论坛这套AR+AI翻译系统,有望拆掉国际会议的“信息围墙”|聚焦中关村论坛

中关村论坛参会人员佩戴眼镜照片(亮亮视野展台提供) 本报(chinatimes net cn)记者张玫 北京报道 一场没有同传耳机的国际论坛 3月27日,由中国残联、北京市政府主办,北京市残联承办的2026中关村论坛年会科技助残论坛在北京举行。 如果你在现场,可能会发现一个有趣的现象:部分参会者并未

热心网友
04.18

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

英特尔Titan Lake处理器全系支持LPDDR6内存
业界动态
英特尔Titan Lake处理器全系支持LPDDR6内存

英特尔下一代TitanLake处理器全系支持LPDDR6内存。面向主流笔记本的U、P及高能效PX系列还将兼容LPDDR5X与DDR5,为设备设计提供灵活性。U、P、PX系列采用Intel18A工艺的新CPU模块,而B、BX系列沿用旧架构。高端PX系列集成GPU采用台积电N2P工艺,配备16个Xe核心,旨在提升图形性能。

热心网友
05.23
比特币巨鲸4.96亿美元空单引发市场对去中心化公信的深度讨论
web3.0
比特币巨鲸4.96亿美元空单引发市场对去中心化公信的深度讨论

一只鲸鱼做空比特币 4 96 亿美元,触发市场公信讨论 最近,链上数据捕捉到的一笔大额交易,瞬间吸引了所有市场参与者的目光:一只比特币巨鲸,悄然开立了价值近5亿美元的空单。这笔操作如同一块投入平静湖面的巨石,不仅激起了短线的价格波澜,更将市场深层的公信机制与交易透明度问题,再次推到了讨论的中心。 鲸

热心网友
05.23
四海兄弟故乡成就快速达成攻略
游戏攻略
四海兄弟故乡成就快速达成攻略

解锁《四海兄弟》“故乡没那么快”成就需耐心探索:深入隐秘角落,留意环境细节;积极与居民互动,收集对话线索;完成相关支线任务,关注伏笔;并注意特定时段触发的事件。成就进度可累积,坚持全面探索方能最终达成。

热心网友
05.23
鬼谷子最强出装推荐与实战打法攻略
游戏攻略
鬼谷子最强出装推荐与实战打法攻略

鬼谷子是战术型辅助,核心在于技能运用与合理出装。二技能是关键控制,配合大招的群体伪装可发起突袭。出装以冷却缩减和生存能力为主,如冷静之靴、极寒风暴和魔女斗篷。实战中需把握进场时机,从侧翼切入控制敌方核心,并注意与队友配合衔接伤害。

热心网友
05.23
AI音效生成工具OptimizerAI自动为视频添加背景音乐
AI教程
AI音效生成工具OptimizerAI自动为视频添加背景音乐

在游戏开发、动画制作、视频创作等数字内容领域,专业音效设计是提升作品沉浸感与专业度的关键。然而,传统音效制作流程往往依赖昂贵的专业设备与庞大的素材库,对独立开发者、小型团队及个人创作者构成了较高的技术门槛与成本压力。近期,一款名为OptimizerAI的人工智能音效生成平台备受关注,它致力于通过AI

热心网友
05.23