新加坡科技设计大学研究机器解析音乐美感与流行趋势

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
每天,数以百万计的AI生成歌曲在Suno、Udio这类平台上涌现。有些作品一夜爆红,被疯狂转发;有些则悄无声息地沉入数据海洋。这背后究竟有没有规律可循?一首AI生成的歌,是因为“好听”才流行,还是“流行”和“好听”根本就是两码事?
一项由新加坡科技设计大学AMAAI实验室开展的研究,试图正面回答这些问题。研究者构建了一个名为APEX的系统框架,它能同时判断AI音乐的“审美质量”和“流行潜力”。这项研究以预印本形式发布于2026年5月(编号arXiv:2605.03395),为这个新兴领域提供了全新的分析工具。
一、AI音乐流行预测:一个全新的难题
预测歌曲流行度,在人类音乐领域并非新鲜事,甚至有一个专门的学科方向——“热门歌曲科学”。几十年来,研究者们尝试了各种方法:分析音频波形、提取节奏模式、结合歌词情感,甚至追踪社交媒体热度。这些方法之所以在一定程度上有效,是因为人类音乐的流行背后存在大量“外部线索”——歌手的知名度、公司的推广、历史数据、粉丝互动。
然而,当创作者从人变成AI时,这些线索几乎全部失效。AI没有粉丝基础,没有营销预算,不会开演唱会。在Suno和Udio上,一首歌从生成到发布只需几秒,日产量可能超过传统唱片公司一年的总和。在这片音海中,决定一首歌能否获得播放和点赞的,几乎只剩下音乐本身的内在质量。
正是意识到这一点,研究团队发现,专门针对AI生成音乐的流行预测模型几乎是一片空白。传统模型无法直接迁移,而这个领域的数据规模、内容特征和评价维度都截然不同。于是,他们决定从零开始,建立一个专属于AI音乐世界的预测体系。
二、“好听”与“会火”:是同一件事吗?
在构建系统之前,一个根本性问题需要厘清:音乐的审美质量(听起来有多好)和它的流行程度(实际有多少人听),究竟是不是一回事?
这个问题在人类音乐世界就已充满争议。有些制作精良的作品叫好不叫座,有些节奏简单的歌曲却能风靡全球。在AI音乐领域,这种张力更为突出:一首技术无可挑剔、结构严谨的AI曲目,未必能吸引普通听众;而一段旋律“抓耳”、略显简单的作品,却可能收获大量播放。
研究团队将这两个维度明确区分,并决定同时建模。代表“好听程度”的是来自SongEval评测体系的五个维度:连贯性(歌曲前后是否一致)、音乐性(是否具备基本美感)、记忆点(旋律是否易记)、清晰度(声部是否清晰)以及自然感(听起来是否像真实音乐)。每个维度由人类专家进行1-5分打分。代表“会不会火”的则是来自真实平台的播放量和点赞量数据。
通过同时预测这七个目标,研究者希望弄清楚:在AI音乐的语境下,审美与流行这两类信号,究竟是相互促进,还是各自独立?
三、机器的“音乐耳朵”:MERT如何理解声音
要让机器预测一首歌的好坏与热度,首先得让它真正“听懂”音乐。研究团队选择MERT(大规模自监督训练的声学音乐理解模型)作为系统的“耳朵”。
可以这样理解MERT的设计:它像一位同时精通声学物理和音乐理论的专家,能从两个层面解读一首歌。在训练时,MERT向两位“老师”学习——一位教它辨别音色、音高、节奏等底层声学特征;另一位帮它理解和弦进行、调式结构等高层次音乐逻辑。这种双路径训练让它既能捕捉细节,又能把握整体。
实际操作中,每首歌被切割成多个30秒的片段,就像把一本书拆成单页阅读。每个片段送入MERT后,系统会从模型内部的四个不同深度层(第3、6、9层及最终层)提取特征。这个设计很有讲究:浅层网络捕捉的是音色、音量这类直接感知的特征;深层网络则处理节奏模式、和声走向等需要抽象理解的音乐特性。将这些不同层的特征通过一个可学习的权重层融合,就相当于从多个视角综合判断一首歌。
最终,同一首歌的所有片段向量会被平均,合并成一个代表其“音乐DNA”的整体表示。这个表示,便是后续所有预测任务的基础。
四、APEX架构:共享底层,分头判断
有了MERT提供的音乐表示,APEX的核心架构可以比喻为一栋建筑:底层是所有任务共用的“共享大厅”,向上延伸出七条专属通道,每条负责一个具体的判断任务。
共享部分由两到三层全连接神经网络构成,维度从768逐步压缩至256。每一层都配备了批归一化(稳定数据)、GELU激活函数(增强非线性表达能力)以及30%的dropout(防止模型过拟合)。它的作用是从音乐表示中提炼出对所有任务都有用的通用特征。
从共享层往上,系统分出七条独立的输出分支:两条主分支预测“播放量分数”和“点赞量分数”;五条辅助分支分别预测SongEval的五个审美维度。每条分支再经过三层网络,最终输出具体分数。播放量和点赞量分数通过sigmoid函数映射到0-100之间;审美分数则映射到1-5分,与SongEval的原始范围保持一致。
流行度分数的计算方式颇具巧思。原始播放次数是绝对值,跨平台比较意义不大。研究团队先将每首歌的播放量在数据集内转换为百分位排名,再用一个幂次函数进行变换,使得只有处于第80百分位的歌曲才能拿到50分。这个设计相当“苛刻”——只有在数据集中真正出类拔萃的歌,才能获得高分。点赞量也采用同样处理。这种标准化分数的好处在于可以跨平台通用,未来也可用于强化学习等下游任务。
五、多任务协同:损失函数的平衡艺术
训练一个同时承担七项任务的模型,面临一个核心挑战:如何将七个任务的误差整合成一个统一的训练信号,让模型合理、同步地进步?
研究团队测试了三种策略:
第一种是“一视同仁”:直接将七个任务的误差相加,不做权重区分。这种做法简单,但风险在于容易被某个误差绝对值高的任务主导,其他任务反而被忽视。
第二种是“手动调权”:人为设定播放量和点赞量这两个主任务的权重为5倍,审美任务为1倍,明确告诉模型“流行预测更重要”。这种做法直观,但权重选择本身带有主观性。
第三种策略更为优雅,借鉴了计算机视觉领域的“基于不确定性的自动权重”方法。其核心思路是:不同任务难度不同,难度可以用“同方差不确定性”来衡量。难度越高、预测越不确定的任务,自动获得较低权重;难度较低、模型把握较大的任务,则承担更多训练责任。这些权重不是人工设定的,而是模型在训练过程中自己学会调整的。这种机制能有效防止某个困难任务“拖垮”整个训练过程。
六、训练数据:21.1万首歌从何而来
研究团队构建的数据集规模可观,来源于两个公开的AI生成音乐数据仓库:Udio-126K和Suno-307K。每首歌都附带有播放量、点赞数等元数据。
原始数据需经严格清洗:剔除播放量为零的歌曲、重复歌曲、损坏的音频文件,以及数据集发布前两周内上线的新歌(以避免时间偏差)。清理后,每个平台保留约12.4万首歌曲。为确保平衡,对规模更大的Suno数据集进行了分层采样,使两平台歌曲在播放量分布上保持一致。
最终合并约24.8万首歌,按85%(训练)、10%(测试)、5%(验证)的比例划分。训练集约21.1万首,对应约1万小时音频,在音乐理解研究中属于相当大的数据集。
训练使用AdamW优化器,学习率0.0001,配合余弦退火调度。在4块NVIDIA Tesla V100 GPU上进行分布式训练,批量大小为每GPU 512个样本,并启用混合精度训练以提升效率。训练在验证集损失停止下降时提前结束。
七、24种配置大横评:寻找最优组合
为了系统性地找到最佳配置,研究者将三个维度的选择完全交叉组合:三种损失策略、两种共享层深度、两种输入模式(片段或整首歌),再加上两种任务配置(仅预测流行度,或同时预测流行度和审美),共构成24种实验条件。
测试结果呈现出相当一致的趋势。在流行度预测上,播放量分数的预测误差(MSE)在699到714之间,平均绝对误差(MAE)在21到22.3之间,皮尔逊相关系数在0.33到0.35之间。点赞量预测的表现略好,相关系数达到0.40到0.42。
所有变量中,“输入模式”影响最为明显。使用整首歌的平均嵌入进行训练,效果显著优于使用单个片段。原因不难理解:一首歌的整体气质往往需要若干段落叠加才能显现,孤立看待30秒片段很容易错过全局。
三层共享结构比两层略好,但提升有限,说明网络深度达到一定程度后,边际效益会递减。自动权重损失策略在大多数配置中都优于或持平于另外两种,印证了其自适应机制的有效性。
一个关键发现是:全任务配置(同时预测流行度和审美)与仅预测流行度的配置相比,流行度预测性能几乎没有差异。换句话说,加入五个审美辅助任务,既没有拖累流行预测,也没有显著提升它——两组任务并行运作,互不干扰。这个结果说明,流行度和审美质量确实是两个相对独立的信号,同时也证明了APEX多任务架构设计的成功,共享层能够有效容纳两类不同性质的信息。
表现最佳的单一配置是“Model C”——自动权重损失、两层共享结构、歌曲级别输入、全任务模式。该配置在流行度和审美预测两方面都达到最优,被选为后续跨平台泛化实验的代表模型。
八、审美预测:机器能接近专家水准吗?
如果说流行度预测的相关系数0.35看起来不算太高,那么审美维度的预测结果则令人印象深刻。
以Model C为例,五个SongEval维度的MSE最低仅为0.166(在5分量表上,平均偏差约0.4分),皮尔逊相关系数达到0.734至0.751,斯皮尔曼相关系数达到0.751至0.765。这意味着APEX预测的审美评分,与人类专家打分具有高度一致性——在判断“哪首歌更自然”的排序上,机器的准确率远高于随机猜测。
五个维度中,“自然感”最容易预测,而“记忆点”最难。这个发现本身就有意味:自然感衡量的是音乐是否听起来不像机器合成的,这恰恰是AI生成音乐最容易在技术上留下痕迹的地方,MERT的底层声学特征对此非常敏感;而记忆点涉及更复杂的心理机制,一段旋律能否留在脑海,可能与听众的文化背景、心理状态、既往音乐经验都有关联,仅凭音频波形难以完全捕捉。
手动调权配置(Model B和Model E)在审美预测上表现最差,这提供了一个反向印证:强行给流行度任务加权,并不能改善其预测,反而因为占用了共享层的学习能力,导致审美预测质量明显下滑。这进一步支持了自动权重策略的优越性。
九、终极考验:APEX能泛化到未知系统吗?
此前所有实验都是在Suno和Udio的歌曲上进行训练和测试。但一个真正有价值的问题是:APEX学到的东西,能否应用于其他AI音乐系统生成的歌曲?如果只对特定平台风格有效,其价值将大打折扣。
为此,研究团队设计了一个独立的验证实验,使用“音乐竞技场”数据集——该数据集由另一研究团队收集,记录了真实用户的偏好。其规则很简单:给定一个文字提示(如“一段轻快的爵士钢琴即兴”),由两个不同的AI系统各生成一首歌,让用户选择更喜欢哪一首。这种“对决”形式直接反映了人类实际偏好。
研究者筛选了最近四个月的数据,剔除无效记录后,保留了1259场有效对决(780场纯器乐,479场含人声)。参与对决的AI系统共11个,包括Sonauto、ACEStep、ElevenLabs等,均为训练阶段从未见过的系统。
实验思路是:对每一场对决,用APEX为两首歌各打出10个维度的分数(包括播放量、点赞量、加权流行综合分、五个审美维度分等),然后计算两首歌在每个维度上的差值和比值,再加入“器乐/非器乐”交互特征,共得到31个特征。再用这些特征训练分类器,预测人类会选择哪一首。
团队使用了五种分类器:逻辑回归、随机森林、XGBoost、AdaBoost和支持向量机(SVM),均采用10折交叉验证确保可靠性。同时设置了一个“朴素规则基准”——直接比较哪首歌的某类预测分数更高,就认为那首更受欢迎,以此检验机器学习相对于简单规则的额外价值。
结果令人鼓舞。仅使用朴素规则时,综合全部分数的AUC(曲线下面积,0.5为随机,1为完美)达到0.535,优于仅使用点赞量预测分数(0.518)。这说明审美维度本身携带的信息,已经超越了纯粹的流行指标。
在机器学习分类器中,SVM表现最佳。加入审美特征后,SVM的整体AUC从0.614提升至0.642,F1分数从0.524提升至0.595。提升幅度虽不惊人,但重要的是,所有五种分类器在加入审美特征后表现均有改善,方向完全一致。这种一致性比单个数字更有说服力——它表明审美特征所携带的信息是真实且可泛化的。
器乐和人声歌曲之间存在明显性能差距:SVM在器乐歌曲上的AUC达到0.686,而在人声歌曲上仅为0.560。研究者认为,这主要是因为当前AI生成的人声仍存在各种伪影和不自然之处,这些问题很难仅凭音频嵌入来捕捉和量化,是未来需要专门攻克的方向。
尽管如此,APEX在面对11个从未见过的AI系统时,依然能给出高于随机水平的流行倾向和审美质量判断。这说明MERT提取的音乐特征确实触及了某些跨越不同生成架构的普遍规律,而非仅仅记住了特定平台的风格。
总结与启示
归根结底,这项研究揭示了一个颇具启发的结论:音乐的“好听”与“流行”虽不完全重叠,但两者都可以从声音本身学习到,并且同时学习它们并不会互相拖累。在AI音乐以海量速度生成的今天,一个能自动判断歌曲审美价值与流行潜力的工具,对于平台推荐系统、AI模型优化乃至用户发现高质量内容,都具有切实的参考价值。
当然,目前流行度预测的相关系数仍在0.35左右,距离“精确预测”尚有距离——毕竟“流行”本身充满了人类喜好的不确定性。而在人声歌曲上的表现弱于器乐,也提示下一步需要专门引入对人声质量的建模。APEX的代码与模型已开源,为后续探索提供了基础。
Q&A
Q1:APEX模型预测AI生成音乐流行度的准确率大概有多高?
A:APEX在播放量预测上的皮尔逊相关系数约为0.33至0.35,点赞量预测约为0.40至0.42。这意味着模型预测值与真实流行度之间存在中等程度的正相关,能判断大方向但并非精确预测。流行本身受众多随机因素影响,目前这个水平在该领域已属合理范围。
Q2:APEX的审美评分和流行度评分是同一回事吗?
A:不是同一回事。审美评分衡量的是歌曲在连贯性、音乐性、记忆点、清晰度和自然感五个维度上的感知质量,其标准来自人类专家打分;流行度评分则基于真实平台的播放量和点赞量统计。实验结果表明,两者捕捉的是互补但不重叠的信号。
Q3:APEX只能用于Suno和Udio的歌曲吗?
A:并非如此。研究团队在“音乐竞技场”数据集上进行了跨平台验证,该数据集包含来自11个训练时从未见过的AI音乐系统。APEX仍然能给出高于随机水平的预测,说明模型学到的特征具备一定的跨系统泛化能力,反映的是音乐的普遍规律,而非特定平台的风格。
相关攻略
每天,数以百万计的AI生成歌曲在Suno、Udio这类平台上涌现。有些作品一夜爆红,被疯狂转发;有些则悄无声息地沉入数据海洋。这背后究竟有没有规律可循?一首AI生成的歌,是因为“好听”才流行,还是“流行”和“好听”根本就是两码事? 一项由新加坡科技设计大学AMAAI实验室开展的研究,试图正面回答这些
每天,数以百万计的AI生成歌曲在Suno、Udio这类平台上涌现。有的作品一夜爆红,被疯狂转发;有的则石沉大海,悄无声息。这背后究竟有没有规律?一首AI生成的歌,是因为“好听”才流行,还是说“流行”和“好听”根本就是两码事? 新加坡科技设计大学AMAAI实验室的研究者们,决定直面这个难题。他们构建了
这项由新加坡科技设计大学、新加坡管理大学、中国科学技术大学和南洋理工大学联合开展的突破性研究,已于2026年2月在预印本平台arXiv上发表,论文编号为2602 21015v1。 面对一个复杂的机械锁,或是需要将各种形状的积木精准装入盒中时,人类大脑能凭借物理直觉,轻松分析物体间的空间关系,并预判哪
热门专题
热门推荐
5月12日,马来西亚吉隆坡成功举办了一场具有前瞻性的行业盛会——中国-马来西亚电动汽车、电池技术与新能源人才创新发展论坛。来自两国政府部门、领军企业、顶尖高校及国际组织的代表共聚一堂,深入交流了在未来产业协同、清洁能源技术创新及高端人才培养等核心领域的合作路径与机遇。 马来西亚第一副总理兼乡村及区域
具身智能要迈过的第一道硬门槛,从来都是量产。 过去几年,全球人形机器人行业反复印证了这一点:舞台演示可以很快,工程验证可以很快,视频传播也可以很快。但当一台机器人要从实验室走向产线,再走向客户现场,问题的复杂度会呈指数级上升。 特斯拉的Optimus就是一个典型的参照系。马斯克多次表达过对Optim
向朋友问路时,如果对方清楚路线,通常会立刻回答“直走然后左转”。但如果对方并不确定,往往会先停顿一下,犹豫地说“呃……好像是……往那边?”。这个开口前的短暂迟疑,往往比最终给出的答案更能说明问题——对方是否真的知道答案。 近期,美国天普大学计算机与信息科学系的一项研究,正是捕捉到了AI回答问题时类似
这项由浙江大学、华南理工大学、南京大学和北京大学联合开展的前沿研究,于2026年4月正式发布,其论文预印本编号为arXiv:2604 24575。 图像分割技术听起来或许有些专业,但它早已深度融入我们的日常生活。无论是智能手机拍摄的背景虚化人像、AI系统在CT影像中精准勾勒病灶轮廓,还是自动驾驶汽车
“大唐”预售热潮尚未平息,“大汉”已蓄势待发,比亚迪王朝系列正以前所未有的攻势,叩响高端市场的大门。 在北京车展引发轰动的比亚迪大唐,预售订单已迅速突破10万台大关,彰显了市场对比亚迪高端产品的强烈期待。而最新信息显示,汉家族即将迎来一位重磅新成员——“大汉”,这款定位D级旗舰的轿车,目标直指20-





