游乐游手机版
首页/科技数码/文章详情

新加坡科技设计大学研究机器解析音乐美感与流行趋势

时间:2026-05-14 08:08
每天,数以百万计的AI生成歌曲在Suno、Udio这类平台上涌现。有些作品一夜爆红,被疯狂转发;有些则悄无声息地沉入数据海洋。这背后究竟有没有规律可循?一首AI生成的歌,是因为“好听”才流行,还是“流行”和“好听”根本就是两码事? 一项由新加坡科技设计大学AMAAI实验室开展的研究,试图正面回答这些


每天,数以百万计的AI生成歌曲在Suno、Udio这类平台上涌现。有些作品一夜爆红,被疯狂转发;有些则悄无声息地沉入数据海洋。这背后究竟有没有规律可循?一首AI生成的歌,是因为“好听”才流行,还是“流行”和“好听”根本就是两码事?

一项由新加坡科技设计大学AMAAI实验室开展的研究,试图正面回答这些问题。研究者构建了一个名为APEX的系统框架,它能同时判断AI音乐的“审美质量”和“流行潜力”。这项研究以预印本形式发布于2026年5月(编号arXiv:2605.03395),为这个新兴领域提供了全新的分析工具。

一、AI音乐流行预测:一个全新的难题

预测歌曲流行度,在人类音乐领域并非新鲜事,甚至有一个专门的学科方向——“热门歌曲科学”。几十年来,研究者们尝试了各种方法:分析音频波形、提取节奏模式、结合歌词情感,甚至追踪社交媒体热度。这些方法之所以在一定程度上有效,是因为人类音乐的流行背后存在大量“外部线索”——歌手的知名度、公司的推广、历史数据、粉丝互动。

然而,当创作者从人变成AI时,这些线索几乎全部失效。AI没有粉丝基础,没有营销预算,不会开演唱会。在Suno和Udio上,一首歌从生成到发布只需几秒,日产量可能超过传统唱片公司一年的总和。在这片音海中,决定一首歌能否获得播放和点赞的,几乎只剩下音乐本身的内在质量。

正是意识到这一点,研究团队发现,专门针对AI生成音乐的流行预测模型几乎是一片空白。传统模型无法直接迁移,而这个领域的数据规模、内容特征和评价维度都截然不同。于是,他们决定从零开始,建立一个专属于AI音乐世界的预测体系。

二、“好听”与“会火”:是同一件事吗?

在构建系统之前,一个根本性问题需要厘清:音乐的审美质量(听起来有多好)和它的流行程度(实际有多少人听),究竟是不是一回事?

这个问题在人类音乐世界就已充满争议。有些制作精良的作品叫好不叫座,有些节奏简单的歌曲却能风靡全球。在AI音乐领域,这种张力更为突出:一首技术无可挑剔、结构严谨的AI曲目,未必能吸引普通听众;而一段旋律“抓耳”、略显简单的作品,却可能收获大量播放。

研究团队将这两个维度明确区分,并决定同时建模。代表“好听程度”的是来自SongEval评测体系的五个维度:连贯性(歌曲前后是否一致)、音乐性(是否具备基本美感)、记忆点(旋律是否易记)、清晰度(声部是否清晰)以及自然感(听起来是否像真实音乐)。每个维度由人类专家进行1-5分打分。代表“会不会火”的则是来自真实平台的播放量和点赞量数据。

通过同时预测这七个目标,研究者希望弄清楚:在AI音乐的语境下,审美与流行这两类信号,究竟是相互促进,还是各自独立?

三、机器的“音乐耳朵”:MERT如何理解声音

要让机器预测一首歌的好坏与热度,首先得让它真正“听懂”音乐。研究团队选择MERT(大规模自监督训练的声学音乐理解模型)作为系统的“耳朵”。

可以这样理解MERT的设计:它像一位同时精通声学物理和音乐理论的专家,能从两个层面解读一首歌。在训练时,MERT向两位“老师”学习——一位教它辨别音色、音高、节奏等底层声学特征;另一位帮它理解和弦进行、调式结构等高层次音乐逻辑。这种双路径训练让它既能捕捉细节,又能把握整体。

实际操作中,每首歌被切割成多个30秒的片段,就像把一本书拆成单页阅读。每个片段送入MERT后,系统会从模型内部的四个不同深度层(第3、6、9层及最终层)提取特征。这个设计很有讲究:浅层网络捕捉的是音色、音量这类直接感知的特征;深层网络则处理节奏模式、和声走向等需要抽象理解的音乐特性。将这些不同层的特征通过一个可学习的权重层融合,就相当于从多个视角综合判断一首歌。

最终,同一首歌的所有片段向量会被平均,合并成一个代表其“音乐DNA”的整体表示。这个表示,便是后续所有预测任务的基础。

四、APEX架构:共享底层,分头判断

有了MERT提供的音乐表示,APEX的核心架构可以比喻为一栋建筑:底层是所有任务共用的“共享大厅”,向上延伸出七条专属通道,每条负责一个具体的判断任务。

共享部分由两到三层全连接神经网络构成,维度从768逐步压缩至256。每一层都配备了批归一化(稳定数据)、GELU激活函数(增强非线性表达能力)以及30%的dropout(防止模型过拟合)。它的作用是从音乐表示中提炼出对所有任务都有用的通用特征。

从共享层往上,系统分出七条独立的输出分支:两条主分支预测“播放量分数”和“点赞量分数”;五条辅助分支分别预测SongEval的五个审美维度。每条分支再经过三层网络,最终输出具体分数。播放量和点赞量分数通过sigmoid函数映射到0-100之间;审美分数则映射到1-5分,与SongEval的原始范围保持一致。

流行度分数的计算方式颇具巧思。原始播放次数是绝对值,跨平台比较意义不大。研究团队先将每首歌的播放量在数据集内转换为百分位排名,再用一个幂次函数进行变换,使得只有处于第80百分位的歌曲才能拿到50分。这个设计相当“苛刻”——只有在数据集中真正出类拔萃的歌,才能获得高分。点赞量也采用同样处理。这种标准化分数的好处在于可以跨平台通用,未来也可用于强化学习等下游任务。

五、多任务协同:损失函数的平衡艺术

训练一个同时承担七项任务的模型,面临一个核心挑战:如何将七个任务的误差整合成一个统一的训练信号,让模型合理、同步地进步?

研究团队测试了三种策略:

第一种是“一视同仁”:直接将七个任务的误差相加,不做权重区分。这种做法简单,但风险在于容易被某个误差绝对值高的任务主导,其他任务反而被忽视。

第二种是“手动调权”:人为设定播放量和点赞量这两个主任务的权重为5倍,审美任务为1倍,明确告诉模型“流行预测更重要”。这种做法直观,但权重选择本身带有主观性。

第三种策略更为优雅,借鉴了计算机视觉领域的“基于不确定性的自动权重”方法。其核心思路是:不同任务难度不同,难度可以用“同方差不确定性”来衡量。难度越高、预测越不确定的任务,自动获得较低权重;难度较低、模型把握较大的任务,则承担更多训练责任。这些权重不是人工设定的,而是模型在训练过程中自己学会调整的。这种机制能有效防止某个困难任务“拖垮”整个训练过程。

六、训练数据:21.1万首歌从何而来

研究团队构建的数据集规模可观,来源于两个公开的AI生成音乐数据仓库:Udio-126K和Suno-307K。每首歌都附带有播放量、点赞数等元数据。

原始数据需经严格清洗:剔除播放量为零的歌曲、重复歌曲、损坏的音频文件,以及数据集发布前两周内上线的新歌(以避免时间偏差)。清理后,每个平台保留约12.4万首歌曲。为确保平衡,对规模更大的Suno数据集进行了分层采样,使两平台歌曲在播放量分布上保持一致。

最终合并约24.8万首歌,按85%(训练)、10%(测试)、5%(验证)的比例划分。训练集约21.1万首,对应约1万小时音频,在音乐理解研究中属于相当大的数据集。

训练使用AdamW优化器,学习率0.0001,配合余弦退火调度。在4块NVIDIA Tesla V100 GPU上进行分布式训练,批量大小为每GPU 512个样本,并启用混合精度训练以提升效率。训练在验证集损失停止下降时提前结束。

七、24种配置大横评:寻找最优组合

为了系统性地找到最佳配置,研究者将三个维度的选择完全交叉组合:三种损失策略、两种共享层深度、两种输入模式(片段或整首歌),再加上两种任务配置(仅预测流行度,或同时预测流行度和审美),共构成24种实验条件。

测试结果呈现出相当一致的趋势。在流行度预测上,播放量分数的预测误差(MSE)在699到714之间,平均绝对误差(MAE)在21到22.3之间,皮尔逊相关系数在0.33到0.35之间。点赞量预测的表现略好,相关系数达到0.40到0.42。

所有变量中,“输入模式”影响最为明显。使用整首歌的平均嵌入进行训练,效果显著优于使用单个片段。原因不难理解:一首歌的整体气质往往需要若干段落叠加才能显现,孤立看待30秒片段很容易错过全局。

三层共享结构比两层略好,但提升有限,说明网络深度达到一定程度后,边际效益会递减。自动权重损失策略在大多数配置中都优于或持平于另外两种,印证了其自适应机制的有效性。

一个关键发现是:全任务配置(同时预测流行度和审美)与仅预测流行度的配置相比,流行度预测性能几乎没有差异。换句话说,加入五个审美辅助任务,既没有拖累流行预测,也没有显著提升它——两组任务并行运作,互不干扰。这个结果说明,流行度和审美质量确实是两个相对独立的信号,同时也证明了APEX多任务架构设计的成功,共享层能够有效容纳两类不同性质的信息。

表现最佳的单一配置是“Model C”——自动权重损失、两层共享结构、歌曲级别输入、全任务模式。该配置在流行度和审美预测两方面都达到最优,被选为后续跨平台泛化实验的代表模型。

八、审美预测:机器能接近专家水准吗?

如果说流行度预测的相关系数0.35看起来不算太高,那么审美维度的预测结果则令人印象深刻。

以Model C为例,五个SongEval维度的MSE最低仅为0.166(在5分量表上,平均偏差约0.4分),皮尔逊相关系数达到0.734至0.751,斯皮尔曼相关系数达到0.751至0.765。这意味着APEX预测的审美评分,与人类专家打分具有高度一致性——在判断“哪首歌更自然”的排序上,机器的准确率远高于随机猜测。

五个维度中,“自然感”最容易预测,而“记忆点”最难。这个发现本身就有意味:自然感衡量的是音乐是否听起来不像机器合成的,这恰恰是AI生成音乐最容易在技术上留下痕迹的地方,MERT的底层声学特征对此非常敏感;而记忆点涉及更复杂的心理机制,一段旋律能否留在脑海,可能与听众的文化背景、心理状态、既往音乐经验都有关联,仅凭音频波形难以完全捕捉。

手动调权配置(Model B和Model E)在审美预测上表现最差,这提供了一个反向印证:强行给流行度任务加权,并不能改善其预测,反而因为占用了共享层的学习能力,导致审美预测质量明显下滑。这进一步支持了自动权重策略的优越性。

九、终极考验:APEX能泛化到未知系统吗?

此前所有实验都是在Suno和Udio的歌曲上进行训练和测试。但一个真正有价值的问题是:APEX学到的东西,能否应用于其他AI音乐系统生成的歌曲?如果只对特定平台风格有效,其价值将大打折扣。

为此,研究团队设计了一个独立的验证实验,使用“音乐竞技场”数据集——该数据集由另一研究团队收集,记录了真实用户的偏好。其规则很简单:给定一个文字提示(如“一段轻快的爵士钢琴即兴”),由两个不同的AI系统各生成一首歌,让用户选择更喜欢哪一首。这种“对决”形式直接反映了人类实际偏好。

研究者筛选了最近四个月的数据,剔除无效记录后,保留了1259场有效对决(780场纯器乐,479场含人声)。参与对决的AI系统共11个,包括Sonauto、ACEStep、ElevenLabs等,均为训练阶段从未见过的系统。

实验思路是:对每一场对决,用APEX为两首歌各打出10个维度的分数(包括播放量、点赞量、加权流行综合分、五个审美维度分等),然后计算两首歌在每个维度上的差值和比值,再加入“器乐/非器乐”交互特征,共得到31个特征。再用这些特征训练分类器,预测人类会选择哪一首。

团队使用了五种分类器:逻辑回归、随机森林、XGBoost、AdaBoost和支持向量机(SVM),均采用10折交叉验证确保可靠性。同时设置了一个“朴素规则基准”——直接比较哪首歌的某类预测分数更高,就认为那首更受欢迎,以此检验机器学习相对于简单规则的额外价值。

结果令人鼓舞。仅使用朴素规则时,综合全部分数的AUC(曲线下面积,0.5为随机,1为完美)达到0.535,优于仅使用点赞量预测分数(0.518)。这说明审美维度本身携带的信息,已经超越了纯粹的流行指标。

在机器学习分类器中,SVM表现最佳。加入审美特征后,SVM的整体AUC从0.614提升至0.642,F1分数从0.524提升至0.595。提升幅度虽不惊人,但重要的是,所有五种分类器在加入审美特征后表现均有改善,方向完全一致。这种一致性比单个数字更有说服力——它表明审美特征所携带的信息是真实且可泛化的。

器乐和人声歌曲之间存在明显性能差距:SVM在器乐歌曲上的AUC达到0.686,而在人声歌曲上仅为0.560。研究者认为,这主要是因为当前AI生成的人声仍存在各种伪影和不自然之处,这些问题很难仅凭音频嵌入来捕捉和量化,是未来需要专门攻克的方向。

尽管如此,APEX在面对11个从未见过的AI系统时,依然能给出高于随机水平的流行倾向和审美质量判断。这说明MERT提取的音乐特征确实触及了某些跨越不同生成架构的普遍规律,而非仅仅记住了特定平台的风格。

总结与启示

归根结底,这项研究揭示了一个颇具启发的结论:音乐的“好听”与“流行”虽不完全重叠,但两者都可以从声音本身学习到,并且同时学习它们并不会互相拖累。在AI音乐以海量速度生成的今天,一个能自动判断歌曲审美价值与流行潜力的工具,对于平台推荐系统、AI模型优化乃至用户发现高质量内容,都具有切实的参考价值。

当然,目前流行度预测的相关系数仍在0.35左右,距离“精确预测”尚有距离——毕竟“流行”本身充满了人类喜好的不确定性。而在人声歌曲上的表现弱于器乐,也提示下一步需要专门引入对人声质量的建模。APEX的代码与模型已开源,为后续探索提供了基础。

Q&A

Q1:APEX模型预测AI生成音乐流行度的准确率大概有多高?

A:APEX在播放量预测上的皮尔逊相关系数约为0.33至0.35,点赞量预测约为0.40至0.42。这意味着模型预测值与真实流行度之间存在中等程度的正相关,能判断大方向但并非精确预测。流行本身受众多随机因素影响,目前这个水平在该领域已属合理范围。

Q2:APEX的审美评分和流行度评分是同一回事吗?

A:不是同一回事。审美评分衡量的是歌曲在连贯性、音乐性、记忆点、清晰度和自然感五个维度上的感知质量,其标准来自人类专家打分;流行度评分则基于真实平台的播放量和点赞量统计。实验结果表明,两者捕捉的是互补但不重叠的信号。

Q3:APEX只能用于Suno和Udio的歌曲吗?

A:并非如此。研究团队在“音乐竞技场”数据集上进行了跨平台验证,该数据集包含来自11个训练时从未见过的AI音乐系统。APEX仍然能给出高于随机水平的预测,说明模型学到的特征具备一定的跨系统泛化能力,反映的是音乐的普遍规律,而非特定平台的风格。

来源:https://www.163.com/dy/article/KSOQGFNE0511DTVV.html
上一篇东方甄选首家线下店开业俞敏洪借鉴胖东来模式 下一篇人形机器人量产元年将至谐波减速器获多家头部企业定点
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
OpenClaw手机App上线,结果翻车了
科技数码 · 2026-07-01

OpenClaw手机App上线,结果翻车了

OpenClaw 官方宣布,已正式推出 iOS 和 Android 原生移动 App,用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接:把 Agent 放进口袋里,让用户可以在移动端处理频道消息、任务和回复。从功能上看,OpenClaw 移动端并

优必选CEO周剑:家庭机器人生态核心投入过半精力
科技数码 · 2026-07-01

优必选CEO周剑:家庭机器人生态核心投入过半精力

先说几个核心判断:优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上,直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进,现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景,另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛
科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛

6月30日,申银万国在光连接系列研报中重点指出,MPO光连接器领域的投资机会值得高度关注。通俗来说,随着AI算力集群持续扩张,光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件,如今它直接决定着链路插损、可

龙岗AR实景剧本游内测体验短板有效破解之道
科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上,区级部门一次性推出了7个AI“龙搭子”。其中,名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解,依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”,已在今年五一假期发布了内测版本。经过一个月市场验证后,该项目正式启动面向全社会的

南下资金6月30日净买入中芯国际与建滔积层板
科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日,南下资金持续大举买入港股,单日净流入金额高达58 95亿港元。接下来,我们直接盘点哪些个股获得资金青睐、哪些遭到减持: 净买入方面,中芯国际领跑全场,单日吸金19 33亿港元;建滔积层板紧随其后,净买入10 59亿港元;腾讯控股获得7 65亿港元净流入;智谱(02513 HK)也有6 5