ICML 2026武大提出首个Any2Any遥感图像跨模态翻译统一转换框架

时间：2026-05-30 10:54

```html 遥感领域近期发布了一项颇具创新性的研究——Any2Any: Unified Arbitrary Modality Translation for Remote Sensing，由武汉大学、北京中关村学院与北京理工大学联合团队完成。论文已公开在 arXiv 平台（2603 04114）

```html

遥感领域近期发布了一项颇具创新性的研究——Any2Any: Unified Arbitrary Modality Translation for Remote Sensing，由武汉大学、北京中关村学院与北京理工大学联合团队完成。论文已公开在 arXiv 平台（2603.04114），同时配套开源了代码与数据集，便于学界和产业界复现与扩展。

创新点

本研究包含以下几项核心贡献：

首次将遥感跨模态翻译任务形式化为“任意到任意（Any-to-Any）”统一框架，将建模复杂度从传统的 O(N²) 大幅降低至 O(1)，显著提升了多模态扩展效率。
构建了首个百万级多模态遥感数据集 RST-1M，覆盖五种传感器模态（RGB、SAR、NIR、MS、PAN），支持任意模态对间的监督学习与零样本评估。
提出了基于共享潜在扩散框架的 Any2Any 模型，通过创新的“潜在锚点机制”将异构模态对齐到统一的语义空间，解决了模态间结构差异问题。
设计了轻量级目标模态残差适配器，在不增加推理复杂度的前提下，有效修正了模态间的系统性分布偏差，提升了翻译保真度。

背景

现代地球观测系统依赖多种异构传感器获取多模态数据——RGB、SAR、PAN、NIR、MS，每种传感器具有不同的物理成像机制，提供的场景信息高度互补。然而，由于采集约束和环境因素，真正大规模共配准的多模态观测数据十分稀缺，模态缺失几乎成为常态。

现有的跨模态翻译方法通常针对每一对模态单独训练一个翻译模型，这意味着需要训练 O(N²) 个方向特定的模型。随着传感器种类增加，训练和存储成本迅速膨胀。此外，各个翻译器在模态特定偏置下独立优化，语义知识难以跨模态对共享，泛化能力受到严重限制。而现有的多模态遥感数据集规模小、模态覆盖有限，难以支撑系统性的任意模态翻译学习需求。

数据

RST-1M

研究团队构建了目前首个百万级遥感任意模态翻译基准数据集——RST-1M。其核心指标如下：

包含约 120 万对空间对齐的跨模态图像对。
覆盖 7 种模态配对，支持 20 个有向模态翻译任务（其中14个为训练可见方向，6个为零样本不可见方向），为模型泛化评估提供了坚实基础。

模态与分辨率

RGB：256×256×3，约 42.5 万张
SAR：256×256×1，约 25 万张
NIR：256×256×1，约 20 万张
MS：128×128×6，约 20 万张
PAN：512×512×1，约 10 万张

数据来源

SEN1-2：提供 SAR-RGB 配对（Sentinel-1/2）
SEN12MS：提供 SAR、RGB、NIR、MS 配对（Sentinel-1/2）
CACo：提供 RGB、NIR、MS（Sentinel-2）
SpaceNet-3 & SpaceNet-5：提供 RGB-PAN 配对（WorldView-3）

构建策略

数据集以 RGB 为枢轴模态，桥接原本不连通的模态对，确保全局跨模态可达性。对于 Sentinel-2 的原始数据，按照标准波段配置派生出 RGB、NIR 和 MS 图像，保证了数据一致性和多样性。

方法

Any2Any 的整体思路采用了解耦式潜在扩散生成框架。它将任意模态翻译分解为三个阶段：模态特定潜在投影、统一语义映射、流形校准，实现了高效且灵活的跨模态生成。

阶段一：模态特定潜在投影

为每种模态独立训练一个变分自编码器（VAE），将异构传感器数据投影到统一的几何对齐潜在空间。编码器将各模态原始观测压缩为维度统一的潜在表示，解码器则负责从潜在表示重建回对应模态图像。训练目标结合了像素级重建损失、感知损失与 KL 散度正则化，确保潜在表示具有良好的可重建性与语义保持能力。

阶段二：统一语义映射（潜在锚点机制）

训练好 VAE 后，冻结其参数，基于对齐的潜在空间训练一个共享的 Diffusion Transformer（DiT）骨干网络。具体做法是将含噪目标潜在表示与源模态潜在表示沿通道维度拼接，作为骨干网络的输入。通过自适应层归一化（AdaLN）把时间步嵌入、源模态标识与目标模态标识融合成一个联合调制向量。这里采用 x₀ 预测重参数化（而非常见的噪声预测），相当于将去噪轨迹直接锚定到目标模态的语义结构上，有效避免了跨模态结构退化问题。

阶段三：流形校准（残差适配器）

为每个目标模态配置一个轻量级残差适配器，用来修正骨干网络预测与目标解码器流形之间的系统性分布偏差。适配器采用紧凑卷积网络结构，附带 SE 通道注意力模块。最终投影层做零初始化，确保训练初期不会破坏骨干网络的预训练先验。通过停止梯度算子将适配器优化与骨干参数解耦。推理时，适配器仅需一次前向操作，计算开销维持在 O(1) 级别，实现了高效部署。

结果与分析

Any2Any 在全部 14 个模态翻译任务上均达到最优或接近最优的性能——值得注意的是，这是用一个统一模型实现的，而现有方法需要训练 14 个独立模型才能覆盖这些任务。更令人关注的是，尽管模型只在部分模态对上训练过，但对 6 个未见模态对展现出了很强的零样本泛化能力，这充分验证了共享潜在空间中语义表示的可迁移性，为遥感多模态统一建模开辟了新路径。

```

来源：https://cloud.tencent.com.cn/developer/article/2676511

深度学习

上一篇scRNA-hdWGCNA共表达网络分析教程：网络图可视化函数详解 下一篇Wanderboat AI智能旅行规划助手的使用指南与全面体验分享

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-01

刚刚，OpenClaw和Cursor杀入手机！

AI Agent，真的开始从电脑里“跑出来”了。以前我们用 Agent，基本离不开网页、IDE、终端、云环境。你想让它写代码、查资料、改项目、跑任务，很多时候还得坐在工位前盯着。但现在不一样了。OpenClaw 推出了 iOS 和安卓原生 App，手机可以变成私有 Agent 网络里的一个移动节点。

AI教程 · 2026-07-01

幻灯片排版优化AI智能助手，节省时间与精力

说起来，今天想和大家聊聊一个特别实在的话题：怎么用AI工具把PPT排版效率提上去，真正省下时间和精力。谁不想在忙忙碌碌的工作里找到点儿省事的诀窍呢？我有个朋友，为了准备一次重要汇报，连着熬了三个晚上折腾PPT，最后出来的效果也就是勉强及格。要是当时他能用上AI工具，结果会不会完全不一样？PPT排版优

AI教程 · 2026-07-01

AI排版软件让文档制作轻松又高效

AI智能排版工具通过自动识别文档结构、调整格式，显著提升排版效率。实际案例显示，文档处理时间可缩短约50%，项目交付效率提高40%。其功能涵盖自动排版、模板库、智能校对等，重构了文档制作流程，使用户专注内容创作，提升专业形象与市场竞争力。

AI教程 · 2026-07-01

Karpathy晒邮件曝光注意力机制真正起源：10年前三项独立研究

2014年，三项研究几乎同时独立提出注意力机制：DzmitryBahdanau在YoshuaBengio实验室开发出RNNSearch（后称注意力），AlexGraves和JasonWeston团队也发表了类似机制。该思想源于解决循环神经网络信息瓶颈的需求，采用可微加权平均，成为深度学习核心算法。

AI教程 · 2026-07-01

如何选择AI排版工具与技巧提升内容创作效率

AI排版工具推荐与技巧：如何提升内容创作效率与视觉设计效果其实，AI排版早已成为内容创作领域的热门话题。在信息爆炸的时代，大家都想知道如何让内容在海量信息中脱颖而出。简单来说，AI排版就是借助人工智能技术自动化处理文本、图像等内容的布局与设计。不妨想象一下：星巴克菜单上那些赏心悦目的排版，背后可能就