大数据成矿预测系列(二) | 证据权重法如何克服自身局限?
前言
承接上文,证据权重法 (WofE) 自问世以来,虽为成矿预测带来了革命性的进步,但其与生俱来的理论缺陷在复杂的实际应用中成为了无法回避的“阿喀琉斯之踵”。正是为了弥补这些裂痕,无数科研工作者前赴后继,开启了一段漫长而富有挑战的“打补丁”征程。
证据权重法的“阿喀琉斯之踵”
首先,我们需要先了解为什么要进一步改进证据权重法,或者需要先了解证据权重法的固体有缺陷。主要包括以下几个方面:
致命缺陷:难以满足的“条件独立”假设
证据权重法 (WofE) 模型最核心、也最备受诟病的理论基石是:所有证据层(如地质构造、地球化学异常、地球物理特征等)之间必须相互条件独立。
然而,在真实的地质系统中,成矿过程是一个复杂的、多因素相互耦合的系统,各种地质现象之间往往存在着紧密的内在联系和因果关系。例如,断裂构造常常是热液活动的通道,因此会伴生明显的蚀变带和地球化学异常。这些证据因子在空间上高度相关,并非彼此独立。
违背该假设会带来一系列严重后果:
系统性的向上偏倚(Upward Bias):这是最具破坏性的后果。当证据层相关时,模型会对同一信息的不同表现形式进行“重复计算”,导致对潜在成矿区的后验概率产生系统性的、过于乐观的评估。这种概率值的夸大,可能误导勘查资源的分配,使投入集中在那些因模型数学缺陷而被高估潜力的目标上。
虚假的精确感:模型对权重方差的估计会系统性偏低,这会低估预测结果的真实不确定性,给决策者一种“预测很准”的错觉,从而掩盖了潜在的风险。
一个简单而有效的诊断方法可以揭示这一问题:在理想的条件下(即条件独立性成立),研究区内所有单元格估计的后验概率之和(T)应约等于已知的矿床总数(n)。但在几乎所有的实际应用中,我们都会发现 T 远大于 n (T > n),这为条件独立性假设被普遍违背提供了直接证据。
其他关键限制
除了条件独立性这一核心难题外,WofE方法还面临其他几个不容忽视的局限:
对已知矿床样本的强依赖性:作为一种监督学习方法,WofE权重的计算完全依赖于已知的矿床点(训练数据)。因此,训练样本的数量、空间分布的均匀性与代表性,直接决定了模型的稳定性和预测能力。在勘查程度较低、矿点稀疏或分布不均的区域,模型的表现往往不尽如人意。
当然,值得指出的是,对训练数据的依赖是当前几乎所有监督学习模型共同面临的挑战,我们将在后续文章中深入探讨。
二值化处理带来的信息损失:为了简化计算,传统的WofE方法通常需要将连续的或多分类的证据图层(如地球化学元素含量)进行二值化处理(即划分为“证据存在”与“证据不存在”)。这种“一刀切”的方式不可避免地会损失原始数据中蕴含的大量细节信息,尤其忽略了那些处于阈值边界或梯度变化区域的微妙变化,而这些区域可能恰恰是成矿的关键地带。
不确定性量化的能力不足:地质预测本质上是与高度不确定性打交道的过程。WofE 模型主要提供一个后验概率的点估计值,但在系统、清晰地量化和表达预测结果不确定性方面能力相对薄弱,这对于需要进行风险评估的勘查决策而言是一大短板。
静态权重难以动态更新:模型计算出的权重是固定的。在复杂且动态演化的成矿系统中,这套固定的权重难以灵活地适应新获取的数据或新的地质认识,限制了其在长期、多阶段勘探项目中的应用潜力。
面对这些令人头疼的问题,地学界的众多研究者们不得不开始为这个经典模型“打补丁”,一场围绕 WofE 方法的改进与革新就此展开。
“打补丁”之路
🔔前排叠甲:这篇文章涉及的方法众多,并不会展开详细讲述每种方法的详细原理和计算示例,如果需要可以留言,我会在后续的文章中展开讲述详细的原理过程。
模糊证据权重法 (Fuzzy WofE)
该方法由 Cheng 和 Agterberg (1999) 提出,该方法将模糊集合理论(Fuzzy Set Theory)与 WofE 相结合。它不再将一个点简单地归为“属于”或“不属于”某个分类(例如,距离断层小于 100 米就认为有利,大于 100 米就认为无利),而是用一个 0 到 1 之间的隶属度函数(Membership Function)来表示一个点属于某个有利地质模式的“程度”。
这段话可能有点晦涩难懂,我用人话解释一下,就是之前的证据权重法对于证据的判别往往是离散的,这要求必须划定一个精确的界线,例如“距离断层500米以内是有利的,以外是无利的”。这种方法会丢失很多信息,因为 501 米和 1000 米被同等对待。这样你一下子就发现了问题所在,这也是模糊证据权重法所要解决的问题:
处理地质边界的模糊性: 完美解决了地质界线、蚀变带、化探异常晕等渐变特征的表达问题。例如,离断层越近,其有利程度(隶属度)越高,反之则越低,这比硬性的二元切割更符合地质实际。
减少主观分类带来的信息损失: 避免了将连续数据强制离散化为主观阈值的过程,更平滑、更客观地利用了原始数据。
序列证据权重法 (Boost WofE )
该方法由 Cheng (2015) 提出,借鉴了机器学习中的 Boosting 算法思想。它不再像传统 WofE 那样一次性计算所有证据图层的权重,而是采用序列迭代的方式。在每一步中,模型会重点关注前一步预测错误的区域(即假阳性和假阴性),并调整下一个证据图层的权重,从而逐步优化预测结果。
该方法内容可能对于没有学过机器学习的小伙伴有点“超纲”了。我用人话解释就是,该方法对于“条件独立性假设”的问题进行了缓解,例如:如果两个证据高度相关,后一个证据对已被前一个证据正确预测的区域的贡献就会降低,从而减少了信息的冗余叠加。它主要解决了:
克服条件独立性假设: 这是 BoostWofE 最核心的优势。通过序列化的方式,后加入的证据可以“看到”前面证据的预测结果,从而对其进行补充和修正。
提高预测精度: 通过迭代学习和误差修正,模型能够更“智能”地组合不同证据,通常能获得比传统WofE更高的预测精度。
混合模型 (Hybrid WofE)
首先要说明的是,混合模型并不是指的某种单独的方法,而是一类方法。通过结合其他方法以克服其条件独立假设的局限性,从而提高成矿预测的准确性和适用性。这类模型通常融合知识驱动与数据驱动方法,利用专家知识和多源数据进行综合分析。大致可以分为:WofE + 模糊集合(Fuzzy Sets)模型,WofE + 证据信念函数(Evidential Belief Functions)模型,WofE + 逻辑回归(Logistic Regression)模型等。
这里我就不详细展开说了。
结语-碎碎念
值得注意的是,这些固有的缺点在当下的研究中依然存在。尽管研究人员采用了不同的方法来加以限制和缓解,但有些根本性问题仍悬而未决。一个典型的例子便是,现今监督式机器学习对已知矿床样本数量的依赖性问题。
当然,针对这一挑战也涌现出了一些新的解决方案,我们将在后续内容中进行深入探讨。记得关注“码上地球——数学地球科学”公众号,以获取后续内容🌹。
科学探索永无止境,本文仅为笔者个人学习总结。因知识所限,文中若有不当之处,敬请方家斧正。
参考内容
Agterberg, F. P., & Cheng, Q. (2002). Conditional independence test for weights-of-evidence modeling. Natural Resources Research, 11, 249–255.
Zuo, R., Kreuzer, O. P., Wang, J., Xiong, Y., Zhang, Z., & Wang, Z. (2021). Uncertainties in GIS-based mineral prospectivity mapping: Key types, potential impacts and possible solutions. Natural Resources Research, 30(5), 3059-3079.
de Quadros, T. F., Koppe, J. C., Strieder, A. J., & Costa, J. F. (2006). Mineral-potential mapping: a comparison of weights-of-evidence and fuzzy methods. Natural Resources Research, 15(1), 49-65.
Deng, M. (2009). A conditional dependence adjusted weights of evidence model. Natural resources research, 18(4), 249-258.
Agterberg, F. P., & Cheng, Q. (2002). Conditional independence test for weights-of-evidence modeling. Natural resources research, 11(4), 249-255.
Cheng, Q., & Agterberg, F. P. (1999). Fuzzy weights of evidence method and its application in mineral potential mapping. Natural resources research, 8(1), 27-35.
Cheng, Q. (2015). BoostWofE: A new sequential weights of evidence model reducing the effect of conditional dependency. Mathematical Geosciences, 47, 591–621.