游乐游手机版
首页/业界动态/文章详情

利用堆叠集成学习,英国研究团队实现251颗盾牌座δ型星星震学指数高精度预测

时间:2026-04-27 17:32
英国华威大学研究团队构建了一套堆叠式集成学习框架,直接从 TESS 光变曲线中预测盾牌座 δ 型星的关键星震学参数。该方法在 643 颗恒星样本上取得了显著效果:所有目标参数的决定系数 R² 均高于 0 77,并在未参与训练的 60 颗恒星上表现出良好的泛化能力,预测结果与传统星震学分析高度一致。

英国华威大学研究团队构建了一套堆叠式集成学习框架,直接从 TESS 光变曲线中预测盾牌座 δ 型星的关键星震学参数。该方法在 643 颗恒星样本上取得了显著效果:所有目标参数的决定系数 R² 均高于 0.77,并在未参与训练的 60 颗恒星上表现出良好的泛化能力,预测结果与传统星震学分析高度一致。

想窥探恒星的内心世界吗?星震学就是那把钥匙。通过解析恒星天然的振荡信号,科学家得以反演其内部结构与演化状态,这堪称现代恒星物理中最具穿透力的研究手段。而在众多研究对象中,盾牌座 δ 型星(质量约为太阳的 1.5–2.5 倍)因其丰富的脉动模式和高度密集的振荡频谱,当之无愧地成为了星震学的“黄金实验场”。这类恒星的脉动,主要源于氦电离区的不透明度(κ)机制驱动,而其内部活跃的对流核,则进一步引发了诸如对流超射、化学混合以及角动量再分配等一系列复杂过程。更棘手的是,较快的自转会让振荡模式发生耦合与频率分裂,这无疑给模式识别与参数提取的难度加了个“倍增器”。

在星震学分析中,功率谱中最高峰对应的频率、最大振荡功率频率,以及大频率间隔 Δν 等参数尤为重要。其中,Δν 对恒星的平均密度极为敏感,是刻画其整体结构的核心指标。然而,对于盾牌座 δ 型星而言,快速自转与多模式混叠,往往会把原本规则的频率间隔搅得一团糟,这让传统方法在测量 Δν 时举步维艰。

转机出现在数据洪流时代。近年来,TESS 卫星获取的大规模高精度光变曲线数据,极大拓展了该类恒星的研究样本,但随之而来的数据处理过程依然计算密集、高度依赖经验,想要高精度提取参数,依然不是件轻松的事。正是在这一背景下,机器学习提供了一条全新的技术路径。相比传统方法,集成学习能够巧妙融合多个模型的预测结果,在复杂数据环境下往往能实现更高的精度与稳定性。像随机森林、梯度提升和岭回归这些方法,近年来在天文学数据分析中已崭露头角,展现出不小的潜力。

英国华威大学的研究团队正是抓住了这一趋势,他们构建了一套堆叠式集成学习框架,目标直指一个核心问题:能否绕过繁琐的中间步骤,直接从 TESS 光变曲线中预测出盾牌座 δ 型星的关键星震学参数?答案是肯定的。该方法在 643 颗恒星样本上表现亮眼:所有目标参数的决定系数 R² 均高于 0.77,更关键的是,在未参与训练的 60 颗恒星上,它同样表现出优秀的泛化能力,预测结果与传统星震学分析高度吻合。

这项研究成果已以「Ensemble Machine Learning Approach to Estimate the Asteroseismic Indices for δ Scuti Stars Observed by TESS」为题,正式发表于 The Astronomical Journal。

研究亮点:

* 提出了一套直接从光变曲线估算关键星震学参数的机器学习框架,突破了传统方法的局限,大幅提升了参数提取的效率。

* 通过优化特征选择和模型架构,实现了高精度预测,并在独立样本上验证了其可靠性。

* 完成了 251 颗盾牌座 δ 型星的星震学指数测定,构建了新星表,丰富了相关恒星的参数数据库,为今后大样本统计分析和恒星演化研究提供了重要数据支撑。

论文地址:https://beta.iopscience.iop.org/article/10.3847/1538-3881/ae4bd8

数据集:TESS 光变曲线筛选与星震学样本构建

这项研究的基石,是一个包含 643 颗盾牌座 δ 型星的 TESS 光变曲线数据集,以及与之对应的三项关键星震学指数:ν(Aₘₐₓ)、νₘₐₓ 和 Δν。初始样本虽有 677 颗恒星,但经过多轮严格筛选,最终保留了 643 颗作为核心数据集。筛选标准相当明确:必须拥有 TESS 2 分钟短曝光光变曲线(数据来自 MAST 档案);每个观测天区的数据点不能少于 7,000 个;光变曲线需经过 PDC-SAP 校正处理;并且,三项星震学参数必须完整可用。

光有训练数据还不够。研究人员额外选取了 251 颗盾牌座 δ 型星作为补充样本。这些恒星同样拥有高质量光变曲线,但其星震学参数尚未被发表。它们的入选条件同样严格:至少覆盖 3 个观测天区,且每个天区数据点不低于 7,000 个。这部分样本,正是用来检验模型实战能力的“新战场”。

643 颗盾牌座 δ 型星的频数直方图

模型:多基模型堆叠的集成回归框架

整个模型的目标很清晰:基于光变曲线的特征,估算恒星的星震学参数。实现路径则环环相扣,主要包括特征提取、数据预处理、集成建模以及超参数优化。

在特征构建方面,研究采用了“两条腿走路”的策略。一类是统计特征,比如均值、标准差、中位数等,用来描述光度分布的基本性质;另一类是频域特征,包括主成分分析(PCA)、自相关函数(ACF)、快速傅里叶变换(FFT)以及离散小波变换(DWT),目的是为了从振荡信号中提取出周期性与多尺度结构信息。

在数据预处理阶段,第一步是剔除存在缺失值的样本,并对所有特征进行归一化处理,让它们站在同一起跑线上。此外,针对部分特征分布不均衡可能带来的模型偏差问题,研究引入了基于统计分布的重采样方法,通过生成合成数据来缓解这一问题,从而提升模型训练的稳定性。

框架是整个方法的核心。模型采用了堆叠式集成回归框架,随机森林、梯度提升回归和岭回归三大基模型各司其职:前两者分别从降低方差和减小偏差的角度提升预测性能,岭回归则通过正则化专门处理特征间的共线性问题。这些基模型的预测输出,并不会被直接采用,而是作为新的输入特征,去训练一个元回归器进行最终融合。这种“集各家之长”的策略,能有效提升整体泛化能力并降低预测误差。

当然,好模型离不开好参数。在模型训练过程中,研究人员采用了随机搜索结合交叉验证的方法,对树的数量、最大深度和学习率等关键超参数进行精细优化,以确保获得稳定且性能最优的模型配置。

以 60 颗独立星检验泛化,所有星震学指数 R²>0.77

实验验证是检验真理的唯一标准。整个过程分为模型训练、泛化能力评估以及新样本预测三个部分。

在训练阶段,研究人员从 643 颗恒星中随机选取 583 颗用于构建模型,并按照 8:2 的比例划分训练集与测试集。为了降低随机性的影响,这一过程重复了 100 次。剩下的 60 颗恒星则被完全“隔离”,作为独立的测试集,专门用于评估模型面对全新数据时的泛化能力。而那 251 颗未标注样本,则留待最后进行实际预测。

对比 583 颗星的实测与预测值、相对误差及误差分布

在训练与测试样本上,模型的表现堪称优秀:对 ν(Aₘₐₓ)、νₘₐₓ 和 Δν 的预测 R² 分别达到了 0.95、0.93 和 0.87,大多数样本的相对误差被控制在 0.2 以下。特征重要性分析揭示了哪些信息贡献最大:自相关函数(ACF)拔得头筹,FFT 与 DWT 紧随其后,部分统计特征(如偏度、峰度)也发挥了一定作用。学习曲线则显示模型收敛稳定,超参数优化效果显著。

模型学习曲线

真正的考验在独立测试集上。模型依然保持了强劲的性能,三个参数的 R² 分别为 0.91、0.87 和 0.77,预测结果与观测值高度一致。多次重复实验的结果波动很小,这充分说明了模型具有出色的稳定性与鲁棒性。最终,研究人员将训练好的模型应用于那 251 颗未标注恒星,成功得到了它们的星震学参数预测值。令人放心的是,所有预测结果都落在了盾牌座 δ 型星的合理参数范围内。

结语

总而言之,这项工作并非意在取代传统的星震学方法,而是提供了一种极具针对性的高效补充。在大规模观测数据滚滚而来的今天,这种思路的价值愈发凸显:先通过数据驱动方法实现参数的高效、批量预估,再结合精细的物理建模进行深入分析和验证。对于像盾牌座 δ 型星这样振荡模式复杂、传统处理方式效率瓶颈明显的目标,这条“机器学习+天体物理”的融合路径,无疑打开了一扇新的大门,让科学家能更从容地应对星海中的数据洪流。

来源:https://36kr.com/p/3784745204521990
上一篇时薪 15 美元的新工种:把 iPhone 绑在脑门上,替 AI 蒸馏自己 下一篇OpenAI 战略重心调整:编程模型 Codex 正式并入 GPT-5.5 架构
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
长安汽车明年一季度发布首款车载人形机器人小安
业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略,采用“1+N+X”布局,联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm,体重69kg,移动速度0 8m s,具备40个自由度,续航超2小时。预计明年一季度发布首款车载组件机器人,已在广州车展展示。

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影
业界动态 · 2026-06-29

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影

3月25日,光通信领域迎来又一个里程碑:中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司,成功实现了2 5Pb s 24芯光纤超大容量实时光传输,再次刷新了世界纪录。 这一研究成果不仅入选国际顶级光通信会议OFC(2026)并荣获“高分论文”称号,还受国际权威SCI

美国调查18万辆特斯拉Model3车门应急释放装置易找性
业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查,焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿,不意味着立即召回,但可能引发后续监管措施。

doc个人图书馆停服 创始人称无偿转让失败
业界动态 · 2026-06-29

doc个人图书馆停服 创始人称无偿转让失败

运营长达20年,累计服务8000万用户的360doc个人图书馆,最终还是迎来了谢幕时刻。2026年5月1日,这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失,而是始终未能寻得一位能够安全接管的合适人选。 创始人蔡智在告别信中坦言,近两个月来,他一直在尝试将360doc无偿转

年Q1随身WiFi实测安全靠谱高性价比机型推荐
业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月,艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证,紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后,折射出一个清晰的市场趋势:移动办公、户外出行、宿舍上网等场景的需求正在快速增长,随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿