新加坡科技设计大学AI音乐研究机器如何解析音乐美感与流行趋势

首页

热心网友

转载

2026-05-13

每天，数以百万计的AI生成歌曲在Suno、Udio这类平台上涌现。有的作品一夜爆红，被疯狂转发；有的则石沉大海，悄无声息。这背后究竟有没有规律？一首AI生成的歌，是因为“好听”才流行，还是说“流行”和“好听”根本就是两码事？

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

新加坡科技设计大学AMAAI实验室的研究者们，决定直面这个难题。他们构建了一个名为APEX的系统，试图让机器同时理解音乐的“美”与“热度”。这项研究以预印本形式发布于2026年5月，编号为arXiv:2605.03395。

AI生成音乐的

一、为什么AI音乐的“流行预测”是一个全新难题

预测一首歌会不会火，在人类音乐世界里不算新鲜事。这个领域甚至有个雄心勃勃的名字——“热门歌曲科学”。几十年来，研究者们尝试了各种方法：分析音频波形、追踪节拍模式、结合歌词情感、监测社交媒体热度，甚至用神经科学仪器测量听众的生理反应。这些方法之所以能部分奏效，是因为人类歌曲的流行背后，有大量“外部线索”可循——歌手的知名度、唱片公司的推广、历史播放数据、粉丝互动记录。

然而，当创作者从人变成AI时，这些线索几乎全部失效。AI没有粉丝基础，没有营销预算，不会开演唱会。在Suno和Udio上，一首歌的诞生只需几秒钟，其日产量可能超过一家传统唱片公司的年产量。在这片声音的汪&洋里，决定一首AI歌曲能否获得更多播放和点赞的，几乎只剩下一个方向：音乐本身的内在质量。

正是在这个背景下，研究团队意识到，专门针对AI生成音乐的流行预测模型，几乎是一片空白。传统模型无法直接迁移，而这个新领域的数据规模、内容特征和评价维度都截然不同。他们决定从零开始，为AI音乐世界建立一套专属的预测体系。

二、“好听”和“会火”是同一件事吗？

在动手构建系统之前，团队面临一个根本性问题：音乐的审美质量（听起来有多好）和它的流行程度（实际上有多少人听），到底是不是一回事？

这个问题在人类音乐领域就已充满争议。有些制作精良、结构复杂的作品叫好不叫座，而一些节奏简单甚至音质粗糙的歌曲却可能风靡全球。在AI音乐领域，这种张力更为突出：一首技术上无可挑剔、音色饱满的AI合成曲，未必能吸引普通听众；而一段旋律“抓耳”、朗朗上口的作品，即便在专业眼光看来略显简单，也可能收获大量流量。

研究团队将这两个维度明确区分，并决定同时建模。代表“好听程度”的是来自SongEval评测体系的五个维度：连贯性（歌曲是否前后一致）、音乐性（是否具备基本美感）、记忆点（旋律是否易记）、清晰度（声部是否清晰）以及自然感（听起来是否像真人创作）。每个维度由人类专家进行1到5分的打分。代表“会不会火”的，则是来自真实平台的播放量和点赞量数据。

通过同时预测这七个维度，研究者希望弄清楚：在AI音乐的语境下，审美与流行这两类信号，究竟是相互促进、各自为政，还是存在某种隐秘的关联？

三、听音乐的“AI耳朵”：MERT是怎样理解音乐的

要让机器预测一首歌的好坏与热度，首先得让它真正“听懂”音乐。研究团队选择了一个名为MERT的音乐理解模型，作为整个系统的“耳朵”。

MERT的全称是“大规模自监督训练的声学音乐理解模型”。它的设计思路可以打个比方：就像一个同时精通声学物理和音乐理论的专家，能从两个层面解读一首歌。在训练时，MERT同时向两位“老师”学习——一位教它辨别音色、音高、节奏等底层声学特征；另一位则帮它理解和弦进行、调式结构等高层次音乐逻辑。这种双师训练让MERT既能捕捉声音细节，又能把握整体结构。

实际操作中，每首歌被切割成多个30秒的片段，就像把一本书拆成单页来阅读。每个片段送入MERT后，系统会从模型内部的四个不同“深度”层提取特征——分别是第3、6、9层和最终层。这个设计很有讲究：浅层网络捕捉的是音色、音量这类直接感知的声学现象；深层网络处理的则是节奏模式、和声走向这类需要“抽象思考”的音乐特性。将这四层特征通过一个可学习的权重层融合，就相当于从多个视角对一首歌做出综合判断。

最终，同一首歌的所有片段向量会被平均合并，形成一个代表其“音乐DNA”的整体表示。这个表示，便是后续所有预测任务的基础。

四、APEX的结构：一个共享底层、分头判断的系统

有了MERT提供的音乐表示，APEX的核心架构就像一栋建筑：底层是所有任务共用的“公共大厅”，向上延伸出七条专属通道，每条负责一个具体的判断任务。

“公共大厅”由两到三层全连接神经网络构成，维度从768逐步压缩至256。每一层都配备了批归一化（稳定数据）、GELU激活函数（增强非线性表达能力）以及30%的dropout（随机“关闭”部分神经元，防止模型死记硬背）。这个共享结构的作用，是从音乐表示中提炼出对所有任务都有用的通用特征。

从共享层往上，系统分出七条独立的输出分支：两条主分支分别预测“播放量分数”和“点赞量分数”；五条辅助分支分别预测SongEval的五个审美维度。每条分支内部再经过三层网络，最终输出一个具体分数。播放量和点赞量分支的输出被映射到0到100之间；五个审美分支的输出则映射到1到5分，与SongEval的原始评分范围保持一致。

播放量和点赞量分数的计算方式颇费心思。原始数据是绝对的播放次数，但直接比较意义不大——同一首歌在百万用户的平台上获得1000次播放，与在万级用户的平台上获得1000次播放，分量截然不同。研究团队先将每首歌的播放量在数据集内转换为百分位排名，再用一个特殊的幂次函数进行变换，使得只有处于第80百分位的歌曲才能拿到50分的中间分。这个设计相当“苛刻”：只有在数据集中真正出类拔萃的歌曲，才能获得高分。点赞量也做了同样处理。这种标准化分数的好处在于可以跨平台通用，未来也可用于强化学习等下游任务。

五、七个任务如何协调：损失函数的平衡艺术

训练一个同时承担七项任务的模型，面临一个棘手问题：七个任务各有各的误差，如何把这些误差整合成一个统一的训练信号，让模型以合理的方式同步进步？

研究团队测试了三种不同的整合策略。

第一种是“一视同仁”：直接把七个任务的误差加总，不做任何权重区分。这种做法简单透明，但风险在于容易被某个“嗓门大”（误差绝对值高）的任务主导，其他任务反而被忽视。

第二种是“手动调权”：人为设定播放量和点赞量这两个主任务的权重为5倍，审美任务权重为1倍，明确告诉模型“流行预测更重要”。这种做法直观，但权重的选择本身带有主观性，未必是最优解。

第三种策略借鉴了计算机视觉领域的经典研究——“基于不确定性的自动权重”。这个方法的核心思路颇为优雅：不同任务的难度不同，难度可以用一个叫“同方差不确定性”的量来衡量。难度越高、预测越不确定的任务，自动获得较低权重；难度较低、模型把握较大的任务，则相应承担更多训练责任。这些权重不是人工设定的，而是模型在训练过程中自己学会的——每个任务配有一个可学习参数，训练时自动调整。这种机制能防止某个困难任务“拖垮”整个训练过程。

六、211,000首歌的训练数据：从哪里来，怎么处理

研究团队构建的训练数据集规模可观，来源于两个公开的AI生成音乐数据仓库：Udio-126K和Suno-307K，分别收录了来自Udio和Suno平台的海量歌曲，每首歌都附带有播放量、点赞数等元数据。

原始数据不能直接使用。研究者首先剔除了播放量为零的歌曲（无人收听，无法判断流行与否）、重复歌曲、损坏的音频文件，以及在数据集发布前两周内刚刚上线的新歌（播放量尚未积累，会引入时间偏差）。经过清理，每个平台保留了约12.4万首歌曲。由于Suno的原始数据集远大于Udio，为了平衡，研究者对Suno进行了分层采样，确保两平台的歌曲在播放量分布上保持一致。

最终合并后约24.8万首歌，按85%（训练）、10%（测试）、5%（验证）的比例分配。训练集约21.1万首，对应约1万小时的音频，这在音乐理解类研究中属于相当大的规模。

训练使用了AdamW优化器，学习率为0.0001，配合余弦退火学习率调度器。整个过程在4块NVIDIA Tesla V100 GPU上进行分布式并行训练，批量大小为每块GPU 512个样本，并启用混合精度训练以提升效率。一旦验证集上的损失停止下降，训练便提前结束。

七、24种配置的大横评：哪种组合效果最好

为了系统性地找到最优配置，研究团队将三个维度的选择完全交叉组合：三种损失策略、两种共享层深度、两种输入模式（片段或完整歌曲），再加上两种任务配置（仅预测流行度，或同时预测流行度和审美），共构成了24种实验条件。

从测试结果来看，整体趋势相当一致。在流行度预测上，播放量分数的预测误差（MSE）在699到714之间，平均绝对误差（MAE）在21到22.3之间，皮尔逊相关系数在0.33到0.35之间。点赞量分数的预测表现略好，相关系数达到0.40到0.42。

在所有变量中，“输入模式”是影响最明显的因素。用整首歌的平均嵌入来训练，效果明显优于把每个片段单独当作训练样本。原因不难理解：一首歌的整体气质，往往在若干段落的叠加后才能显现，孤立地看某一段30秒，很可能错过歌曲的整体走向。

三层共享结构比两层略好，但提升幅度有限，说明表达能力达到一定程度后，单纯加深网络带来的边际效益会递减。自动权重损失策略在大多数配置中都优于或持平于另外两种，印证了这种自适应机制的有效性。

最值得关注的发现是：全任务配置（同时预测流行度和审美）与仅预测流行度的配置相比，流行度预测性能几乎没有差异。换句话说，加入五个审美辅助任务，既没有拖累流行预测，也没有显著提升它——两组任务并行运作，互不干扰。这个结果既说明流行度和审美质量确实是两个相对独立的信号，也证明APEX的多任务架构设计是成功的，共享层能够有效容纳两类不同性质的信息。

表现最佳的单一配置是“Model C”——自动权重损失、两层共享结构、歌曲级别输入、全任务模式。这个配置在流行度和审美预测两方面都达到了最优，成为后续跨平台泛化实验的代表模型。

八、审美维度：机器能打出接近专家的分数吗

如果说流行度预测的结果（相关系数0.35左右）让人觉得“还有提升空间”，那么审美维度的预测结果则令人眼前一亮。

以Model C为例，五个SongEval维度的MSE最低仅为0.166（在满分5分的量表上，平均偏差只有约0.4分），皮尔逊相关系数达到0.734至0.751，斯皮尔曼相关系数达到0.751至0.765。这意味着APEX预测的审美评分，与人类专家的打分有相当高的一致性——在排名顺序上，机器判断“这首歌比那首歌更自然”的准确率，远超过随机猜测。

五个维度中，“自然感”是最容易预测的，而“记忆点”是最难的。这个发现本身就意味深长：自然感衡量的是音乐是否听起来不像机器合成的，这恰恰是AI生成音乐最容易在技术上留下痕迹的地方，MERT的底层声学特征对这类差异非常敏感；而记忆点则涉及更复杂的心理机制，一段旋律是否会留在脑海，可能与听众的文化背景、心理状态、以往音乐经历都有关联，仅凭音频波形很难完全捕捉。

手动调权配置（Model B和Model E）是审美预测表现最差的，这提供了一个反向印证：强行给流行度任务加权，并不能改善其预测效果，反而因为占用了共享层的学习能力，使审美预测质量明显下滑。自动权重的优越性在此得到了进一步支持。

九、真正的考验：对未曾见过的AI系统，APEX还管用吗

所有之前的实验，都是在Suno和Udio的歌曲上进行训练和测试。但真正的问题是：APEX学到的东西，能不能用在其他AI音乐系统产生的歌曲上？如果只对Suno和Udio的风格有效，那这个系统的价值就大打折扣。

为此，研究团队设计了一个完全独立的验证实验，使用的是“音乐竞技场”数据集——一个由其他团队收集的真实人类偏好数据。这个数据集的规则很简单：给一个文字提示（比如“一段轻快的爵士钢琴即兴”），由两个不同的AI系统各自生成一首歌，让真实用户听完后选择更喜欢哪一首。这种“对决”形式，直接反映了人类的实际偏好。

研究团队筛选了最近四个月的数据，最终保留了1259场有效对决，其中780场是纯器乐，479场包含人声。参与对决的AI系统共11个，包括Sonauto、ACEStep、ElevenLabs、MusicGen等，全部是训练阶段从未见过的系统。

实验设计的核心思路是：对每一场对决，用APEX对两首歌各打出10个维度的分数，然后计算两首歌在每个维度上的差值和比值，再加入“器乐/非器乐”的交互特征，共得到31个特征。再用这些特征训练分类器，来预测人类会选哪首。

团队使用了五种分类器：逻辑回归、随机森林、XGBoost、AdaBoost和支持向量机（SVM），全部采用10折交叉验证确保结果可靠。同时还设置了一个“朴素规则基准”——直接比较哪首歌的某类预测分数更高，就认为那首更受欢迎，以此检验机器学习相对于简单规则的额外价值。

结果相当鼓舞人心。仅用朴素规则时，综合全部分数的AUC（曲线下面积，0.5代表瞎猜，1代表完美）达到0.535，优于仅用点赞量预测分数（AUC=0.518）。这说明审美维度本身就已经携带了超越纯粹流行指标的预测信息。

在机器学习分类器中，SVM取得了最好成绩。加入审美特征后，SVM的整体AUC从0.614提升至0.642，F1分数从0.524提升至0.595。这个提升幅度不算巨大，但在所有五种分类器中，加入审美特征后表现都有所改善，方向完全一致。这种一致性比单个数字更有说服力——它表明审美特征所携带的信息，是真实且可泛化的。

器乐和人声歌曲之间存在明显的性能差距：SVM在器乐歌曲上的AUC达到0.686，而在人声歌曲上只有0.560。研究者认为，这主要是因为AI生成的人声歌唱目前仍存在各种伪影和不自然之处，这些问题很难仅凭音频嵌入来捕捉和量化，是未来需要专门处理的方向。

尽管如此，APEX在面对训练时完全未曾接触过的11个AI系统时，依然能给出高于随机水平的流行倾向和审美质量判断。这说明MERT提取的音乐特征确实触达了某些跨越不同生成架构的普遍规律，而非仅仅记住了Suno和Udio的特定风格。

结语

归根结底，这项研究揭示了一个颇具启发性的事实：音乐的“好听”和“流行”虽然并不完全重叠，但两者都可以从声音本身学到，而且同时学习它们，并不会让两件事互相拖累。在AI音乐以海量速度涌现的今天，一个能自动判断哪些歌曲更具审美价值、更可能获得听众青睐的工具，对平台推荐系统、AI模型的训练优化，乃至普通用户发现高质量内容，都有切实的参考价值。

当然，目前的预测相关系数还处于0.35左右的水平，距离“精确预测”仍有相当距离——毕竟“流行”这件事本身就充满了人类喜好的不确定性。而在人声歌曲上的表现明显弱于器乐，也提示下一步可以专门引入对人声质量的建模。APEX的代码和模型已经开源，为后续探索提供了基础。