新加坡科技设计大学研究机器解析音乐美感与流行趋势

首页

科技数码

热心网友

转载

2026-05-14

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

每天，数以百万计的AI生成歌曲在Suno、Udio这类平台上涌现。有些作品一夜爆红，被疯狂转发；有些则悄无声息地沉入数据海洋。这背后究竟有没有规律可循？一首AI生成的歌，是因为“好听”才流行，还是“流行”和“好听”根本就是两码事？

一项由新加坡科技设计大学AMAAI实验室开展的研究，试图正面回答这些问题。研究者构建了一个名为APEX的系统框架，它能同时判断AI音乐的“审美质量”和“流行潜力”。这项研究以预印本形式发布于2026年5月（编号arXiv:2605.03395），为这个新兴领域提供了全新的分析工具。

一、AI音乐流行预测：一个全新的难题

预测歌曲流行度，在人类音乐领域并非新鲜事，甚至有一个专门的学科方向——“热门歌曲科学”。几十年来，研究者们尝试了各种方法：分析音频波形、提取节奏模式、结合歌词情感，甚至追踪社交媒体热度。这些方法之所以在一定程度上有效，是因为人类音乐的流行背后存在大量“外部线索”——歌手的知名度、公司的推广、历史数据、粉丝互动。

然而，当创作者从人变成AI时，这些线索几乎全部失效。AI没有粉丝基础，没有营销预算，不会开演唱会。在Suno和Udio上，一首歌从生成到发布只需几秒，日产量可能超过传统唱片公司一年的总和。在这片音海中，决定一首歌能否获得播放和点赞的，几乎只剩下音乐本身的内在质量。

正是意识到这一点，研究团队发现，专门针对AI生成音乐的流行预测模型几乎是一片空白。传统模型无法直接迁移，而这个领域的数据规模、内容特征和评价维度都截然不同。于是，他们决定从零开始，建立一个专属于AI音乐世界的预测体系。

二、“好听”与“会火”：是同一件事吗？

在构建系统之前，一个根本性问题需要厘清：音乐的审美质量（听起来有多好）和它的流行程度（实际有多少人听），究竟是不是一回事？

这个问题在人类音乐世界就已充满争议。有些制作精良的作品叫好不叫座，有些节奏简单的歌曲却能风靡全球。在AI音乐领域，这种张力更为突出：一首技术无可挑剔、结构严谨的AI曲目，未必能吸引普通听众；而一段旋律“抓耳”、略显简单的作品，却可能收获大量播放。

研究团队将这两个维度明确区分，并决定同时建模。代表“好听程度”的是来自SongEval评测体系的五个维度：连贯性（歌曲前后是否一致）、音乐性（是否具备基本美感）、记忆点（旋律是否易记）、清晰度（声部是否清晰）以及自然感（听起来是否像真实音乐）。每个维度由人类专家进行1-5分打分。代表“会不会火”的则是来自真实平台的播放量和点赞量数据。

通过同时预测这七个目标，研究者希望弄清楚：在AI音乐的语境下，审美与流行这两类信号，究竟是相互促进，还是各自独立？

三、机器的“音乐耳朵”：MERT如何理解声音

要让机器预测一首歌的好坏与热度，首先得让它真正“听懂”音乐。研究团队选择MERT（大规模自监督训练的声学音乐理解模型）作为系统的“耳朵”。

可以这样理解MERT的设计：它像一位同时精通声学物理和音乐理论的专家，能从两个层面解读一首歌。在训练时，MERT向两位“老师”学习——一位教它辨别音色、音高、节奏等底层声学特征；另一位帮它理解和弦进行、调式结构等高层次音乐逻辑。这种双路径训练让它既能捕捉细节，又能把握整体。

实际操作中，每首歌被切割成多个30秒的片段，就像把一本书拆成单页阅读。每个片段送入MERT后，系统会从模型内部的四个不同深度层（第3、6、9层及最终层）提取特征。这个设计很有讲究：浅层网络捕捉的是音色、音量这类直接感知的特征；深层网络则处理节奏模式、和声走向等需要抽象理解的音乐特性。将这些不同层的特征通过一个可学习的权重层融合，就相当于从多个视角综合判断一首歌。

最终，同一首歌的所有片段向量会被平均，合并成一个代表其“音乐DNA”的整体表示。这个表示，便是后续所有预测任务的基础。

四、APEX架构：共享底层，分头判断

有了MERT提供的音乐表示，APEX的核心架构可以比喻为一栋建筑：底层是所有任务共用的“共享大厅”，向上延伸出七条专属通道，每条负责一个具体的判断任务。

共享部分由两到三层全连接神经网络构成，维度从768逐步压缩至256。每一层都配备了批归一化（稳定数据）、GELU激活函数（增强非线性表达能力）以及30%的dropout（防止模型过拟合）。它的作用是从音乐表示中提炼出对所有任务都有用的通用特征。

从共享层往上，系统分出七条独立的输出分支：两条主分支预测“播放量分数”和“点赞量分数”；五条辅助分支分别预测SongEval的五个审美维度。每条分支再经过三层网络，最终输出具体分数。播放量和点赞量分数通过sigmoid函数映射到0-100之间；审美分数则映射到1-5分，与SongEval的原始范围保持一致。

流行度分数的计算方式颇具巧思。原始播放次数是绝对值，跨平台比较意义不大。研究团队先将每首歌的播放量在数据集内转换为百分位排名，再用一个幂次函数进行变换，使得只有处于第80百分位的歌曲才能拿到50分。这个设计相当“苛刻”——只有在数据集中真正出类拔萃的歌，才能获得高分。点赞量也采用同样处理。这种标准化分数的好处在于可以跨平台通用，未来也可用于强化学习等下游任务。

五、多任务协同：损失函数的平衡艺术

训练一个同时承担七项任务的模型，面临一个核心挑战：如何将七个任务的误差整合成一个统一的训练信号，让模型合理、同步地进步？

研究团队测试了三种策略：

第一种是“一视同仁”：直接将七个任务的误差相加，不做权重区分。这种做法简单，但风险在于容易被某个误差绝对值高的任务主导，其他任务反而被忽视。

第二种是“手动调权”：人为设定播放量和点赞量这两个主任务的权重为5倍，审美任务为1倍，明确告诉模型“流行预测更重要”。这种做法直观，但权重选择本身带有主观性。

第三种策略更为优雅，借鉴了计算机视觉领域的“基于不确定性的自动权重”方法。其核心思路是：不同任务难度不同，难度可以用“同方差不确定性”来衡量。难度越高、预测越不确定的任务，自动获得较低权重；难度较低、模型把握较大的任务，则承担更多训练责任。这些权重不是人工设定的，而是模型在训练过程中自己学会调整的。这种机制能有效防止某个困难任务“拖垮”整个训练过程。

六、训练数据：21.1万首歌从何而来

研究团队构建的数据集规模可观，来源于两个公开的AI生成音乐数据仓库：Udio-126K和Suno-307K。每首歌都附带有播放量、点赞数等元数据。

原始数据需经严格清洗：剔除播放量为零的歌曲、重复歌曲、损坏的音频文件，以及数据集发布前两周内上线的新歌（以避免时间偏差）。清理后，每个平台保留约12.4万首歌曲。为确保平衡，对规模更大的Suno数据集进行了分层采样，使两平台歌曲在播放量分布上保持一致。

最终合并约24.8万首歌，按85%（训练）、10%（测试）、5%（验证）的比例划分。训练集约21.1万首，对应约1万小时音频，在音乐理解研究中属于相当大的数据集。

训练使用AdamW优化器，学习率0.0001，配合余弦退火调度。在4块NVIDIA Tesla V100 GPU上进行分布式训练，批量大小为每GPU 512个样本，并启用混合精度训练以提升效率。训练在验证集损失停止下降时提前结束。

七、24种配置大横评：寻找最优组合

为了系统性地找到最佳配置，研究者将三个维度的选择完全交叉组合：三种损失策略、两种共享层深度、两种输入模式（片段或整首歌），再加上两种任务配置（仅预测流行度，或同时预测流行度和审美），共构成24种实验条件。

测试结果呈现出相当一致的趋势。在流行度预测上，播放量分数的预测误差（MSE）在699到714之间，平均绝对误差（MAE）在21到22.3之间，皮尔逊相关系数在0.33到0.35之间。点赞量预测的表现略好，相关系数达到0.40到0.42。

所有变量中，“输入模式”影响最为明显。使用整首歌的平均嵌入进行训练，效果显著优于使用单个片段。原因不难理解：一首歌的整体气质往往需要若干段落叠加才能显现，孤立看待30秒片段很容易错过全局。

三层共享结构比两层略好，但提升有限，说明网络深度达到一定程度后，边际效益会递减。自动权重损失策略在大多数配置中都优于或持平于另外两种，印证了其自适应机制的有效性。

一个关键发现是：全任务配置（同时预测流行度和审美）与仅预测流行度的配置相比，流行度预测性能几乎没有差异。换句话说，加入五个审美辅助任务，既没有拖累流行预测，也没有显著提升它——两组任务并行运作，互不干扰。这个结果说明，流行度和审美质量确实是两个相对独立的信号，同时也证明了APEX多任务架构设计的成功，共享层能够有效容纳两类不同性质的信息。

表现最佳的单一配置是“Model C”——自动权重损失、两层共享结构、歌曲级别输入、全任务模式。该配置在流行度和审美预测两方面都达到最优，被选为后续跨平台泛化实验的代表模型。

八、审美预测：机器能接近专家水准吗？

如果说流行度预测的相关系数0.35看起来不算太高，那么审美维度的预测结果则令人印象深刻。

以Model C为例，五个SongEval维度的MSE最低仅为0.166（在5分量表上，平均偏差约0.4分），皮尔逊相关系数达到0.734至0.751，斯皮尔曼相关系数达到0.751至0.765。这意味着APEX预测的审美评分，与人类专家打分具有高度一致性——在判断“哪首歌更自然”的排序上，机器的准确率远高于随机猜测。

五个维度中，“自然感”最容易预测，而“记忆点”最难。这个发现本身就有意味：自然感衡量的是音乐是否听起来不像机器合成的，这恰恰是AI生成音乐最容易在技术上留下痕迹的地方，MERT的底层声学特征对此非常敏感；而记忆点涉及更复杂的心理机制，一段旋律能否留在脑海，可能与听众的文化背景、心理状态、既往音乐经验都有关联，仅凭音频波形难以完全捕捉。

手动调权配置（Model B和Model E）在审美预测上表现最差，这提供了一个反向印证：强行给流行度任务加权，并不能改善其预测，反而因为占用了共享层的学习能力，导致审美预测质量明显下滑。这进一步支持了自动权重策略的优越性。

九、终极考验：APEX能泛化到未知系统吗？

此前所有实验都是在Suno和Udio的歌曲上进行训练和测试。但一个真正有价值的问题是：APEX学到的东西，能否应用于其他AI音乐系统生成的歌曲？如果只对特定平台风格有效，其价值将大打折扣。

为此，研究团队设计了一个独立的验证实验，使用“音乐竞技场”数据集——该数据集由另一研究团队收集，记录了真实用户的偏好。其规则很简单：给定一个文字提示（如“一段轻快的爵士钢琴即兴”），由两个不同的AI系统各生成一首歌，让用户选择更喜欢哪一首。这种“对决”形式直接反映了人类实际偏好。

研究者筛选了最近四个月的数据，剔除无效记录后，保留了1259场有效对决（780场纯器乐，479场含人声）。参与对决的AI系统共11个，包括Sonauto、ACEStep、ElevenLabs等，均为训练阶段从未见过的系统。

实验思路是：对每一场对决，用APEX为两首歌各打出10个维度的分数（包括播放量、点赞量、加权流行综合分、五个审美维度分等），然后计算两首歌在每个维度上的差值和比值，再加入“器乐/非器乐”交互特征，共得到31个特征。再用这些特征训练分类器，预测人类会选择哪一首。

团队使用了五种分类器：逻辑回归、随机森林、XGBoost、AdaBoost和支持向量机（SVM），均采用10折交叉验证确保可靠性。同时设置了一个“朴素规则基准”——直接比较哪首歌的某类预测分数更高，就认为那首更受欢迎，以此检验机器学习相对于简单规则的额外价值。

结果令人鼓舞。仅使用朴素规则时，综合全部分数的AUC（曲线下面积，0.5为随机，1为完美）达到0.535，优于仅使用点赞量预测分数（0.518）。这说明审美维度本身携带的信息，已经超越了纯粹的流行指标。

在机器学习分类器中，SVM表现最佳。加入审美特征后，SVM的整体AUC从0.614提升至0.642，F1分数从0.524提升至0.595。提升幅度虽不惊人，但重要的是，所有五种分类器在加入审美特征后表现均有改善，方向完全一致。这种一致性比单个数字更有说服力——它表明审美特征所携带的信息是真实且可泛化的。

器乐和人声歌曲之间存在明显性能差距：SVM在器乐歌曲上的AUC达到0.686，而在人声歌曲上仅为0.560。研究者认为，这主要是因为当前AI生成的人声仍存在各种伪影和不自然之处，这些问题很难仅凭音频嵌入来捕捉和量化，是未来需要专门攻克的方向。

尽管如此，APEX在面对11个从未见过的AI系统时，依然能给出高于随机水平的流行倾向和审美质量判断。这说明MERT提取的音乐特征确实触及了某些跨越不同生成架构的普遍规律，而非仅仅记住了特定平台的风格。

总结与启示

归根结底，这项研究揭示了一个颇具启发的结论：音乐的“好听”与“流行”虽不完全重叠，但两者都可以从声音本身学习到，并且同时学习它们并不会互相拖累。在AI音乐以海量速度生成的今天，一个能自动判断歌曲审美价值与流行潜力的工具，对于平台推荐系统、AI模型优化乃至用户发现高质量内容，都具有切实的参考价值。

当然，目前流行度预测的相关系数仍在0.35左右，距离“精确预测”尚有距离——毕竟“流行”本身充满了人类喜好的不确定性。而在人声歌曲上的表现弱于器乐，也提示下一步需要专门引入对人声质量的建模。APEX的代码与模型已开源，为后续探索提供了基础。

Q&A

Q1：APEX模型预测AI生成音乐流行度的准确率大概有多高？

A：APEX在播放量预测上的皮尔逊相关系数约为0.33至0.35，点赞量预测约为0.40至0.42。这意味着模型预测值与真实流行度之间存在中等程度的正相关，能判断大方向但并非精确预测。流行本身受众多随机因素影响，目前这个水平在该领域已属合理范围。

Q2：APEX的审美评分和流行度评分是同一回事吗？

A：不是同一回事。审美评分衡量的是歌曲在连贯性、音乐性、记忆点、清晰度和自然感五个维度上的感知质量，其标准来自人类专家打分；流行度评分则基于真实平台的播放量和点赞量统计。实验结果表明，两者捕捉的是互补但不重叠的信号。

Q3：APEX只能用于Suno和Udio的歌曲吗？

A：并非如此。研究团队在“音乐竞技场”数据集上进行了跨平台验证，该数据集包含来自11个训练时从未见过的AI音乐系统。APEX仍然能给出高于随机水平的预测，说明模型学到的特征具备一定的跨系统泛化能力，反映的是音乐的普遍规律，而非特定平台的风格。

来源:https://www.163.com/dy/article/KSOQGFNE0511DTVV.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：东方甄选首家线下店开业俞敏洪借鉴胖东来模式下一篇：人形机器人量产元年将至谐波减速器获多家头部企业定点