加州大学河滨分校等机构揭秘AI解读星系照片

时间：2026-07-02 10:17

先说一个不容忽视的核心判断：随着星系影像数据呈现爆炸式增长，天文学家们正面临一种令人期待却也充满挑战的“甜蜜烦恼”。以DESI、欧几里得和LSST为代表的新一代巡天观测项目，每日产出的天文图像数据量早已远远超出人工逐张核查的能力范围。为此，“基础模型”这类前沿AI技术被引入天文领域，它们能够从海量数据中自主挖掘规律，辅助科学家提炼关键信息。这原本是件好事，但一个常被忽略的关键环节——分词器，正在悄然左右着最终的模型表现。

分词器的工作机制，可以这样理解：假设你希望一位只擅长文字处理的人解析一幅画作，就必须先将其“转译”成文字。翻译的精细度——是粗略勾勒轮廓，还是细致描绘每一笔色彩——会直接影响分析结果的深度。分词器正是承担这类“转译”任务的工具，它将星系图像转化为AI能够处理的数字化序列。问题在于，不同的转译方式，是否会让AI对星系的物理特性——如距离、质量、恒星形成速率——产生天壤之别的理解？这看似是一个技术细节，实则触及了AI天文学的根基：我们究竟是在训练一个旨在“理解宇宙”的AI，还是在训练一个只会“复述图像”的AI？

一、四种“翻译官”的各自特性

为验证这一猜想，研究团队从DESI遗产巡天项目DR8数据集中精心筛选了64万张星系图像作为实验材料。每张图像均包含g、r、z三个波段的信息，分辨率统一为256×256像素。他们将这批图像输入到同一个名为AstroPT的AI框架中——该模型是一个专为天文数据设计的解码器式Transformer模型，拥有8900万个参数，共计12层，能够像GPT那样以自回归方式“阅读”数据序列。随后，团队为该框架分别搭配了四种不同的分词器，以观察在同一架构下，不同转译方式会导致模型学到何种差异。

第一种：仿射分词器。该方式可视为最朴素的“直译员”。它将每张图像分割成8×8像素的小块，共计1024块，然后通过一个简单的线性数学变换，将每个小块转换为AI能够识别的数字向量。没有额外计算，没有复杂处理，所有的理解工作都交给AstroPT框架。这种方法的优势在于简单、高效、运算成本低，是本次实验的基准参照。

第二种：AIM分词器。其思路与仿射分词器相近，同样采用切分图像块的方式，但在转译时使用了多层感知机——一种能够捕捉非线性关系的神经网络。这意味着该“翻译员”具备更强的“理解能力”，能够感知图像块内部像素之间的复杂关联。值得一提的是，仿射和AIM这两种方法均对每个图像块进行了z-score标准化处理，即将像素值调整至均值为零、方差为一的标准范围内。这有助于维持训练稳定性，但也会导致重建后的图像呈现出一种明显的“方格状”纹理。

第三种：JetFormer分词器。其设计灵感源自一篇关于图像自回归生成的研究论文，采用了一种名为“归一化流”的可逆数学变换。可以将这位“翻译员”理解为一位严谨的专员——其转译过程完全可逆，拿到译稿即可完整复原原文，不丢失任何信息。图像先经过均匀去量化处理，再通过一个二维流模块转换为潜在表示。由于整个流程可逆，编码器和解码器共用同一模块，无需单独预训练，而是与AstroPT框架从零开始共同训练。JetFormer采用混合高斯分布来预测每个连续值的概率，而非像离散分词器那样从一个固定词汇表中选取词汇。值得一提的是，其训练过程需要一个特殊的“噪声课程表”——RGB噪声从σ=64逐步降低至零，潜在空间噪声也从0.3逐步降至零。如果没有这一课程表，流模型可能会将信息隐藏在人眼难以察觉的高频维度中，从而导致训练过程崩溃。

第四种：VQ-VAE分词器。可以将它比作一位习惯使用“图章盖戳”来分类的翻译员。它首先通过一个编码器网络将图像压缩成连续的潜在向量，随后强制将这些向量“量化”到由512个固定代码组成的词典中，选取距离最近的一个。换句话说，这位翻译员只承认512个固定词汇，无论原始图像多么复杂，最终都必须归类到某一个词汇上。在正式训练AstroPT框架之前，VQ-VAE已在星系图像上单独完成预训练并冻结了词典。训练时使用交叉熵损失来预测下一个离散词元。这种“预先学得词典再冻结”的设计，使其与其他三种分词器在训练流程上存在本质差异——对此，研究团队也坦诚指出：这四种比较并非完全等价的对照实验，而是各自依据文献中的最佳实践进行“最公平的竞争”。

二、谁的重建效果最好？答案出人意料地简明

评估一位“翻译官”优劣最直接的标准是：拿到译稿后，能否最大程度还原出原文的内容？研究团队采用了两个量化指标：SSIM（结构相似性，数值越接近1表示越相似）和PSNR（峰值信噪比，数值越高表示图像越清晰）。

JetFormer在图像重建方面以绝对优势胜出。在5000张随机测试图像上，其平均PSNR达到了31.11分贝，SSIM均值为0.762。这意味着它还原出的星系图像能够保留旋臂的细节、星系核心的亮度结构以及弥散的低表面亮度背景光——这些细节对于天文学家研究星系结构至关重要。

相比之下，VQ-VAE的重建质量明显逊色：PSNR均值仅为23.57分贝，SSIM均值只有0.544。虽然大致轮廓尚存，但仔细观察会发现，在明亮的星系核心周围出现了模糊的“云雾状”伪影，甚至出现了原图中并不存在的细小红色结构，而低表面亮度的弥散外围区域则大量丢失。这并不难理解：仅有512个词汇的词典，显然无法精确描述真实宇宙图像中千变万化的细微特征。

仿射和AIM这两种方法由于对每个图像块进行了z-score标准化处理，重建后的图像会呈现出肉眼可见的“方格感”——整张图像被分割成一个个8×8的小格，每个小格内部的亮度被独立标准化，导致相邻方块之间出现明显边界。这并非模型质量不佳，而是标准化处理带来的必然结果。

三、谁最理解星系的“身份信息”？数字背后的物理意义

重建图像清晰固然重要，但对于天文学家而言，更关键的问题是：AI所“学习”的知识究竟包含多少物理意义？换句话说，通过AI提取的数字特征，能否准确推断出星系真实的物理属性？

研究团队从每个AstroPT模型的中间层提取特征向量，并分别训练线性探针和MLP探针，用以回归13个物理属性。这13个属性涵盖了天文学中最常用的星系描述维度：光度量、颜色指数、光度红移和光谱红移、比恒星形成率、恒星质量，以及五个形态指标。评估指标采用决定系数R²，其数值介于0到1之间，越接近1表示预测越准确。测试集包含16.7万个星系，并采用10折交叉验证以确保结果可靠性。

结果揭示了一幅引人深思的图景。VQ-VAE在几乎所有属性的线性和MLP探针测试中都名列前茅。以g-r颜色为例，VQ-VAE的线性探针R²达到0.82，而仿射和AIM仅为0.71，JetFormer为0.74。对于光谱红移——这个天文学中极为重要的距离指标，VQ-VAE线性探针达到0.85，仿射和AIM为0.77，JetFormer为0.80。更耐人寻味的是，VQ-VAE的线性探针分数在大多数属性上甚至超越了MLP探针——这意味着512个词汇的硬量化不仅仅是在压缩信息，而是在以某种方式重新组织信息，使得物理属性以一种极为“规整”的方式排列在特征空间中，以至于一个简单的线性模型就能将它们准确识别出来。

JetFormer在颜色、红移、恒星质量和恒星形成率等“光谱相关”属性上稳定超越仿射和AIM，但在形态指标上却输给了AIM。仿射和AIM在几乎所有属性上的得分相差无几——这一发现颇具深意：消耗更多计算资源的MLP头并未给AI带来实质性的知识增益，框架本身的表达能力已经足够强大，翻译环节的复杂度对最终结果的影响十分有限。

关于g-r颜色比r-z颜色更容易预测的现象，研究团队给出了物理解释：g-r颜色在所覆盖的红移范围内动态变化范围更大，且与年轻恒星的辐射紧密相关，因此作为回归目标更易于区分。r-z颜色则更多反映老年恒星星族，与恒星总质量相关，属性更稳定，但也因此区分度较低。g-r对尘埃遮蔽更为敏感，这解释了为什么sSFR比M*更难预测，也解释了为什么MLP探针在sSFR上比线性探针改进幅度更大——尘埃、年龄与颜色之间的非线性纠缠，需要更强的模型才能有效解析。

研究团队还进行了一项“分组探针”实验，将13个属性归类为几大类，分别考察每种分词器将多少“注意力”分配给了哪类属性。JetFormer将更多的特征空间用于直接可见的图像属性——表观光度和结构参数的分组探针R²分别达到0.33和0.29，而VQ-VAE仅为0.19和0.16。相反，VQ-VAE将更多空间留给了需要“抽象推理”的高层属性，例如红移和绝对光度。这表明VQ-VAE的词典机制在某种程度上引导AstroPT框架跳过了像素层面的直觉，直接去学习更深层的物理规律。

四、两个极端之间的“信息悖论”

至此，一个矛盾逐渐浮现：JetFormer重建效果最佳，却在物理属性预测上相对较弱；VQ-VAE重建效果最差，却在物理属性预测上表现最强。这一反差并非偶然，研究团队通过一项巧妙的实验揭示了背后的机制。

他们从18万张测试和验证星系图像出发，分别提取JetFormer重建图像、VQ-VAE重建图像以及原始图像的ResNet-50特征——这是一个在ImageNet上预训练的通用视觉网络——然后使用相同的线性和MLP探针来预测物理属性。这相当于绕过了分词器生成的内部特征，直接询问：从重建后的像素中，还能找回多少原始的物理信息？

JetFormer重建图像的探针分数几乎与原始图像持平——每个光度属性的误差都在波动范围内，形态属性最多相差4个R²点。这证明JetFormer的可逆流确实将原始图像中的所有信息都“带了过来”，只是这些信息以一种线性探针难以直接提取的方式散布在潜在空间中。VQ-VAE重建图像的探针分数则系统性低于原始图像，在形态、sSFR和绝对光度上的损失尤为明显，而颜色指数的损失相对较小。这证明VQ-VAE的词典量化是一个不可逆的操作——它真正丢失了细节，不是隐藏起来，而是彻底消失了。

换句话说，JetFormer是一个完美的“保险箱”：所有信息都保存完好，但找到钥匙的难度很大。VQ-VAE则是一个严格的“筛选器”：它主动丢弃了大量细节，但正是这种丢弃使得剩余的信息按照物理意义重新排列，从而变得更容易提取。

五、四份“星系档案”分别呈现何种形态？

研究团队还通过PCA主成分分析和UMAP流形学习两种降维可视化方法，检验了四种分词器生成的特征空间结构，相当于为特征空间绘制了一张“地图”，并用不同颜色标注了每个星系的物理属性。

在PCA投影下，仿射和AIM的特征空间呈现出开放的马蹄形弧形，整体沿一个主方向展开，类似单一维度的渐变色带；JetFormer形成更为拉伸的月牙形；VQ-VAE则形成一个密集的填充椭圆。在UMAP投影下，仿射和AIM破碎成大量分散的小岛，而JetFormer和VQ-VAE保持了单一连通的流形结构。值得注意的是，无论采用哪种投影方式、使用哪种分词器，物理属性的渐变梯度都清晰可见——g-r颜色和光度红移之间的相关性在所有方法中都表现出连贯的颜色过渡，这一现象反映了星系光谱随距离变化而导致颜色系统性偏移的真实物理规律。特征空间还沿着另一个方向编码了形态和光度信息：平滑的早型星系倾向于占据较亮的区域，与旋涡星系分居两侧——这与天文学中著名的星系形态-星等关系完全吻合，完全源自图像本身而无需任何人工标注。

仿射和AIM的特征空间在两种投影下都高度相似，再次印证了在强大的AstroPT框架面前，额外的MLP翻译层并未带来本质不同的特征组织方式。

六、成本账单：时间与能源的天平

研究团队也诚实地记录了四种方案的训练成本。仿射和AIM各使用一块NVIDIA H100显卡训练了3小时，能耗约为2.1千瓦时。JetFormer需要两块H100并行训练8小时，能耗约为11.2千瓦时，是前者的五倍以上。VQ-VAE则在一块NVIDIA Quadro GV100上训练了20小时，能耗约为5.2千瓦时。以能耗来进行比较更为公平：仿射和AIM最为经济，JetFormer最昂贵，VQ-VAE居中。研究团队计划在论文去匿名化后公开所有预训练代码和模型权重，以避免他人重复训练带来的额外碳排放。

研究的边界与未来的方向

研究团队对自己工作的局限性保持了坦诚的态度。首先，探针方法只能检测“能够被线性或非线性函数直接提取的信息”，不能排除某些信息确实存在但探针能力不足以提取的可能性。其次，VQ-VAE的预训练流程与其他方法不同，其在物理属性预测上的优势可能部分归因于预训练编码器的质量，而不仅仅是量化机制本身的功劳。第三，本研究没有探索数据集规模或模型参数量变化时各分词器性能的变化趋势，也没有测试跨仪器或跨波段数据的泛化能力。

这些局限也指明了未来的研究方向：构建一个更为系统的“分词器基准”，基于可验证的天文物理真值来评估各种图像分词策略，并且不仅面向星系图像，还应面向光谱、时序、多模态等更广泛的天文数据形式。

归根结底，这项研究想要传达的核心思想是：在训练天文AI时，我们不能只看模型能否将图像渲染得足够精美，更要关注它是否真正“理解”了图像背后的物理含义。这两者并非同一回事，而分词器的选择正是决定AI走向哪个方向的第一道关口。对于那些计划构建多模态天文基础模型的研究者而言，一个关键的实际建议已逐渐清晰：如果研究目标是光度测量和光谱推断，VQ-VAE的压缩表示可能更为实用；如果目标是图像重建或视觉生成，JetFormer是更可靠的选择；如果计算资源有限且任务偏重形态分析，仿射分词器以最低的成本提供了与AIM相当的性能。不存在一个分词器能在所有任务中都胜出——这本身就是一个值得所有AI工程师铭记的结论。

Q&A

Q1：为什么VQ-VAE分词器在预测星系物理属性时比JetFormer更准确，但其重建图像质量却更差？

A：VQ-VAE通过一个仅有512个固定代码的词典来压缩图像，这种硬量化会丢弃大量像素细节，导致重建图像出现模糊和伪影。然而，正是这种“强制归类”的机制让剩余的信息按照物理意义重新排列，使得恒星质量、红移等属性在特征空间中变得高度可区分，因此预测准确率反而更高。JetFormer通过可逆变换保留了所有原始像素信息，重建质量最高，但这些信息在潜在空间中散布得较为杂乱，探针很难从中直接提取单个物理属性。

Q2：仿射分词器和AIM分词器的预测效果几乎相同，那么AIM分词器中的MLP有何意义？

A：从本次实验结果来看，在AstroPT这个足够强大的框架下，AIM分词器额外引入的多层感知机（MLP）几乎没有带来实质性的性能提升。两者在所有13个物理属性上的探针分数高度接近，PCA和UMAP可视化后的特征空间结构也极为相似。这表明当后端Transformer模型具备足够强的表达能力时，翻译环节是采用线性还是非线性方式，对最终学到的知识影响非常有限。

Q3：在选择天文基础模型的分词器时，应如何权衡？

A：根据本研究的结论，分词器的选择应基于具体的下游任务目标。如果模型主要用于光度测量、红移估算或光谱属性推断，VQ-VAE的离散压缩表示能提供更易于线性提取的物理信息。如果模型的目标包括图像重建、视觉生成或需要保留低表面亮度细节的科学分析，JetFormer的可逆流是更为合适的选择。对于计算资源有限且侧重形态分析的应用场景，仿射分词器以最低成本提供了与AIM相当的性能。

来源：https://www.163.com/dy/article/L0PKAH2N0511DTVV.html

上一篇苹果遭印度合作伙伴泄密，iPhone 18 Pro大量细节与超20万份文件流入暗网 下一篇阿里Qwen团队教机器人学会举一反三

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。