机器学习的主要应用领域可概括为分类、回归、降维与聚类四大方向。在开发指标预测这一实际场景中,回归与降维方法占据主导地位。其理论基础在于使目标函数尽可能小——该目标函数由经验风险与结构风险两部分构成。经验风险反映预测值与真实观测值之间的偏差;结构风险则受置信域制约,而置信域本质上是推广性的界,主要受维度大小和样本数量影响。
实际可用的算法种类繁多,针对指标预测与数值模拟调参,常见的包括支持向量回归机、随机决策森林、多元自适应回归样条、深度学习、k最近邻、核脊回归、协同过滤与概率矩阵分解、神经网络、随机梯度下降、广义回归神经网络等。

具体到开发指标,核心预测对象是产量与物性参数。产量方面,产水率、产气率、产油率及递减率是常见指标。物性参数则涵盖油藏物理性质与流体性质。有研究者利用随机森林、多元自适应回归样条和支持向量回归机对递减率进行预测,结果表明支持向量回归机(SEDM)表现最优。
在产量预测领域,采用数值模拟等数据驱动模型比单纯依赖递减率预测更为准确。人工神经网络虽具备强大能力,但单独使用难以完全替代数据驱动模型,两者协同使用反而能实现更好的效果。
物性参数如孔隙度、渗透率同样需要准确预测。对比传统地质概率方法、克里金法与机器学习方法,结论明确:机器学习在耗时短、计算量小的前提下,预测准确度并未降低。
支持向量回归机的重要性与VC维、推广性的界等概率统计概念密切相关。其流程并不复杂:首先选择输入数据,进行粗糙化、归一化等预处理;第二步建立模型并选定核函数;第三步利用油产量差、气产量差、水产量差分别预测孔隙度与渗透率,再将预测值加入输入自变量,用于修正厚度预测误差。最后依据产量数据建模,输出数值模拟所需的调参数据。其中,负责数据空间映射的核函数影响最大——径向基核函数效果最佳。
支持向量机的核心是核函数,因此也被称为单核函数。多核学习是其推广形式,采用双回路调整机制:内回路最小化静态模型失配,优化输入特征的影响;外回路优化多核学习参数,最小化油藏模型响应的动态失配。多核学习能够对空间特征进行非线性混合,不同油藏区域需选择不同的内核宽度。与单核函数相比,多核模型灵活性更高——多个核函数映射后的高维空间由多个特征空间组合而成,能在新组合空间中获得更准确、更合理的表达,进而提高分类正确率或预测精度。不过,多核学习在处理异构数据集时虽表现优异,但效率是其最大瓶颈,主要体现在空间开销与时间开销两方面——高耗时与高空间复杂度限制了其大规模普及。
深度学习结合集合数据同化法进行历史拟合,也是一种新兴思路。基本方案为:利用一组先前的沉积相认识训练深度自动编码器,将隐层系数(编码器输出)作为历史拟合参数,通过ES-MDA分析方程进行调整,再基于初始训练(解码器)用更新后的系数重建沉积相模型——即ES-MDA-DL。以PUNQ-S3案例来看,对比ES-MDA与ES-MDA-PCA,ES-MDA-DL同样能获得定义良好的河道,保持对数渗透率的双模型分布,数据拟合质量与前两者不相上下。ES-MDA-DL与ES-MDA-PCA均采用了降维技术,将数据降维并进行高斯变换,从而摆脱了ES-MDA对数据高斯性假设的依赖。更重要的是,这两种方法同时更新了沉积相与岩石物理性质,结果更加准确。
对于存在可行性约束的油藏历史拟合,可借助基于KNN分类器挖掘训练数据集中的特征空间。要在保留形状与连通模式的同时更新曲流河河道以拟合观测数据,是一项挑战,传统历史拟合方法难以实现。采用机器学习方法,能够在保持复杂相连通性的前提下,提出一种复杂相模型自动历史拟合的框架。
横向比较来看:GRNN模型的拟合质量优于MARS模型和SGB模型;但在测试集上,MARS的表现又优于SGB和GRNN。此外,MARS、SGB和RF等机器学习方法与GRNN不同——它们能够自动选择相关的输入特征。
总体而言,不同的机器学习算法、模型输入数据的处理与选择、参数与函数的调优,这些因素共同决定了模型的效率与准确度。机器学习在开发指标预测与数值模拟调参方面已有广泛应用。当然,部分较新的算法(如多核学习)仍有较大提升空间——这也是未来值得继续深入探索的方向。
