经验贝叶斯克里金——基于ArcGIS 10.1Geostatistical Analyst

经验贝叶斯克里金
基于ArcGIS 10.1Geostatistical Analyst


作者:康斯坦丁 克里沃切科(Konstantin Krivoruchko) 

Esri软件研发部,高级助理研究员


翻译:Esri_大虾卢

1 前言

获得可靠的环境测量的数据,是昂贵和艰苦的,在大多数情况下,造成环境污染的区域并不是人类工作和生活的区域,以至于没有相应的收集设备来收集相关的数据。因此,在无法观察的时候,获取到预测值,就非常重要了。插值的过程就是通过已经在观测地点已有的数据来获取在一个没有被观察的位置的数据。

对空间数据进行插值有许多方法。一般把他们分为两大类:确定性方法和非确定性方法。确定方法是指采用预定义的函数来确定观测点与预测点位置之间的距离来决定预测值,所以插值的结果是确定的(例如反距离插值)。非确定性方法是以统计理论为基础的。通过不确定性的预测方法来进行插值。因为其的不确定性,所以采用了内插法来对其提供信息的需求进行限制。


要研发一个可靠的自动化统计插值模型,在很长一段时间内在GIS社区的一直是一个热点问题。然后,这所有一个非常具有挑战性的工作,因为每个统计模型都是建立在及其复杂的用户数据的交互上的。而且这些用户数据往往极难进行数学描述。


本文的主要内容是简要讨论地统计插值方法的特性,然后提供基于ArcGIS 10.1地统计分析中一些对于经验贝叶斯克里金(EBK)模型实现细节。


使用各种数据进行了广泛的测试都表明了EBK是一种可靠的自动插值器。ArcGIS提供的EBK模型也是一个可用性较高的地理处理工具,可在modelBuider 和python脚本中去使用。


2 克里金简介

克里金是指一种最优空间预测模型的统计预测技术。它是由Lev Gandin(前苏联数学家与气象学家,文章的小号斜体字都是由译者加上去的,下同)在1959年在一个气象应用中发展而来的(这个有争议,但是1952年D.G. Krig提出并使用之后,1962年G. Matheron教授才正式创立地统计学)。它目前被应用在许多其他的学科中,包括了农业、矿业、环保等学科中。
克里金是一种非确定性预测模型,因此,需要为观察的数据假设一个统计模型。克里金将预测标准误差与预测值之间的不确定性进行了量化。克里金预测被称为最优预测,就是因为其能将预测误差最小化。从理论上说,能将预测值和真值达到一致。
克里金预测有如下特性:
比其他的预测模型有更小的不确定性。
能过滤掉测量错误引发的异常值。
能够在特征点与协变量之间找到变量的相关性。


        当克里金预测应用于分析放射性污染的时候,他们能回答这样的问题:在哪些位置的食品污染概率超过了放射生态学的标准?并且能够提供相应的污染平均水平的评估以及指定区域的总污染量。


克里金使用半方差图(也叫半变异函数)——一种对两个不同距离和方向的地点数据的空间相关性进行量化的函数。这种半方差图是构造在由一对观察点的观察值,给定一个距离h来计算其观测值均方差的的一半,然后在y轴上把这个均方差值按照距离h进行绘制出来,用以分离这一对观测值。
 
图1a:半方差值计算的双点(红点),他们的平均值(蓝色十字架),估计半方差模型(蓝线)
(其中,x轴表示距离,y轴表示均方差的值)


图1a就显示了半方差图值的双点(红点)和在这两点之间他们的平均值的间隔距离(蓝色十字架)。蓝线就是估计的半方差图模型。这个半方差图用来定义权重,确定每个观测数据对未取样的位置的新数据预测的值的贡献度。


在克里金之后,还有一些统计假设方法。主要的假设是空间平稳性(空间均匀性)。如果该数据是平稳的,则意味在该数据范围内的所有数据的这半方差图是相同的。


如果数据呈高斯分布,那么最好的预测是对附近的数据采用一种线性组合。当然还有其他的分布,但是最好的预测往往是非线性的,因此,实际上肯定更复杂。这些数据如果转换为遵循高斯分布的数据,那么就可以在克里金预测结果与原始数据间做来回转换。即可在ArcGIS的地统计分析中去应用了。


在古典(经典)克里金中,假设估计半方差图是真正半方差图的观察数据。这就意味着数据的估计半方差图中定义的结构来自高斯分布的相关性。这种假设是一个非常强大的假设,但是很少用于实践。因此,我们需要采取行动,使统计模型更为现实。


3 经验贝叶斯克里金简介

EBK不同于古典克里金方法使用的解释误差估计模型的半方差图。EBK是通过估计,然后使用大量的半方差图模型,而不是单一的一个半方差图。以下就是EBK的必须的步骤:
1、采用半方差图模型对数据进行估计。
2、使用这个半方差图,在每个输入的数据位置生成新值。
3、使用新的模拟数据重新估计生成新的半方差图。最后根据这个半方差图的范围去计算需要使用的贝叶斯经验规则。这就表明了可能观察到的数据都可以从这个半方差图来生成。
重复步骤第2步和第3步。每次重复,使用第一步的方法,在输入位置模拟一组新的值来使用半方差图进行估计。这个模拟数据就是用来估计一个新的半方差图模型和它的份量(weight)。


这个过程就创造了一个连续的变异函数。每一个半方差图都可以从真正的半方差图的生成过程中可以观察到。图1b就显示了这样一个半方差图模型的一个连续频谱。中值的分布是一条实体的红线。第一四分位数(25%)与第三四分位数(75%)使用的是红色的虚线。蓝线的分布宽度成正比,所以权重较小的半方差图权重模型采用细线来表示。
 
图1b:EBK在一定范围内的半方差图在的模型集合


默认的克里金模型在EBK的本质是由:随机函数的种子发生数为0,空间相关性模型b和幂模型c以及影响力权重α(该值的权重值在0和2之间)为参数组成的模型。这种相关性模型相当于分形布朗运动(fractional Brownian motion),也被称为随机游走过程(注:随机游走:其概念接近于布朗运动,是布朗运动的理想数学状态。核心概念是任何无规则行走者所带的守恒量都各自对应着一个扩散运输定律  http://baike.baidu.com/view/3606415.htm)。它包含了一组过滤掉了稳健的趋势的随机数据。


下面的一组图中显示了模拟三种不同影响力权重的表面插值结果。分别是α=0.1(图2a),α=1.0(图2b),α=1.9(图2c)。
 
图2a:使用半方差图模型权重空间数据模拟的权重值为0.1生成的预测图
 
图2b:使用半方差图模型权重空间数据模拟的权重值为1.0生成的预测图
 
图2c:使用半方差图模型权重空间数据模拟的权重值为1.9生成的预测图


不管放大任何部分的表面,都显示一个类似于随机游走的表面。当相关性模型的距离影像权重α=1的时候,线性模型显示在图像的中间,对应于普通布朗运动(悬浮微粒永不停息地做无规则运动的现象叫做布朗运动,布朗运动是一种独立增量过程,是一个具有连续时间参数和连续状态空间的随机过程(Stochastic Process)):运动过程随独立的步骤递增。然而,这种递增依赖于分数布朗运动(分数布朗运动(fractional Brownian motion,FBM)模型具有自相似性、非平稳性两个重要性质,是许多自然现象和社会现象的内在特性。分数布朗运动与布朗运动之间的主要区别为:分数布朗运动中的增量是不独立的,而布朗运动中的增量是独立的)。如果在先前的步骤中有一个递增的模式,那么很有可能当前的步骤会将当前权重值增加到大于1或者减少到小于1。在图2中,模拟表面的α较小的时候,看起来像一个混合有稳定的趋势和随机噪声而模拟的表面(图2a)。但是模拟表面的α较大的时候(图2c),几乎没有任何大尺度的数据变异的表现。


以下EBK演示所用的数据,是2011年日本福岛第一核电站事故后,从靠近该处的设施中测量到的被放射性铯137污染的土壤的数据,分为六个子要素集。地图的每个子集的结果定性都非常的相似,他们都表现出相同的特点(图3a)。这表明默认的EBK模型提供了一个小范围放射性污染区域进行预测的良好的预测方法。(克里金是一个区域最优预测模型,而不是整体最优的
 
图3a:使用六个子数据集预测土壤污染的分析图


EBK除了是使用多个半方差图模型,而不是仅有一个模型,在对古典克里金模型上有很大的优势以外,其还有几个额外的优点:该模型可以用于插入非平稳的数据,以至于可以在较大的区域的内,局部的将数据改造为高斯分布。


在EBK中,对于大型数据集,输入数据的第一要务就是要将数据划分为指定大小的子数据集。有可能重叠,也有可能不重叠。在每个子集中,产生独立的半方差图分布。然后会对于每个一个位置,利用半方差图分布,预测生成一个或者多个子数据集。每个子数据集使用由附近数据所定义的模型,而不是受到远处的数据的影响。但是当所有的模型都组合在一起的时候,他们就创建成了一个完整的画面,就如同下图中,以“脸”为题的画,是由一个水果篮子结合各种水果组合而成的。(图3b)
 
图3b:水果篮子  Giuseppe Arcimboldo (ca. 1527–1593)


虽然默认的EBK模型的数据残差的分布接近高斯分布,但是通过删除本地趋势(local trend),残差分布仍然是非高斯分布。在这种情况下,选择另外的模型以进行数据的转换可能会产生更好的预测结果。在地统计分析中,由模型诊断法来实现该过程。


以下是铯137的土壤污染分布的地图,几方面数据显示,他们在不同范围的非高斯分布在不同的区域(图4a)。所以,这些不同的数据分布,清晰的表明了不同的数据特征可以有本身最优的插值模型。EBK提供了一个选项来将观测的过程转换为高斯过程,使用的估计数据转换函数如图4b。
 
图4a:在六个土壤污染子数据集中放射性铯的分布
 
图4b:数据转换的过程

EBK通过数据转换选项来估计数据分布的时候,一般使用以下算法:
1. 数据转换为高斯分布和半方差图模型的评估同时进行。
2. 使用半方差图模型,无条件的模拟新数据在每一个位置进行输入,进行循环转换。
3. 使用转换后的新数据与新的半方差图模型对模拟数据进行评估。
4. 按指定的次数重复第二步和第三步,每一次重复都生成一个新的转换和半方差图。
5. 使用贝叶斯规则来计算半变异函数的权重值。
6. 使用权重值对预测的结果和预测标准误差进行验证,然后在进行反复的转换和偏差校正。


当我们的相关预测不确定时,就应该要考虑到,在决策上来使用这些结果的目的。图5显示了利用EBK制作的靠近福岛第一核电站的铯137对土壤污染(ci/平方公里)【curie(ci居里)是用来测量放射性强度的单位】的预测值以及预测标准误差的地图。图5b显示了铯137在一定数据范围内的分布。
 
图5:铯137的土壤污染预测和预测标准误差的映射地图;95%的预测值在1和2的位置上,分别是【7.82——21,62】Ci/km2和【1.17——3.21】Ci/km2这个区间内。


 
图5b:在福岛第一核电站附近铯137土壤污染的分布。


放射性的衰变也给我们提供了一个有趣的例子,因为他是一个泊松分布,而不是简单的高斯分布。其本质属性,所有的泊松分布的平均值等于他的均方差。(注:如果泊松分布的平均值很大,那么泊松分布可以转换成高斯分布,这时,它的均方差等于平均值。)因此,变化预测往往是较小观测数据中的低值和较大观测数据中的高值。此过程如图5


解释预测连同预测标准误差放在一起,为我们提供了一个可以更好的理解可能的污染等级。在图5中,分析两个不同的标记的数据对照,更详细的揭示了他们相关的预测值与预测误差。位置1的14.72与3.42和位置2的2.19与0.52。


在这些位置的放射性土壤污染(95%的预测区域)大约分别是:
14.72 ± 3.52 × 1.96 ≈ 14.72 ± 6.9 Ci/km2

2.19 ± 0.52 × 1.96 ≈ 2.19 ± 1.02 Ci/km2
因此,在第一个区域才是“真正的”污染区,结果值大于20 Ci/km2,经管我的预测值小于15 Ci/km2。如果该区域容忍的土壤污染的极限是15 Ci/km2(前苏联的标准),那么在第一个区域是相当不安全的,附近的居民就应该撤离。在第二个区域,“真是的”污染可能高达3 Ci/km2,接近给定的预测值2 Ci/km2。


4 结论

经验贝叶斯克里金是在ArcGIS 10.1中的地统计分析扩展中提供的一个简单而且健壮的空间数据插值方法。如果你需要了解更多的信息,请参阅ArcGIS的展现帮助,以及阅读Esri出版社出版的相关读物。


5 进一步阅读

Gribov, A., and K. Krivoruchko (2012). “New Flexible Non-parametric Data Transformation for Trans-Gaussian Kriging.”  Geostatistics Oslo 2012, Quantitative Geology and Geostatistics, Volume 17, Part 1, pp. 51–65, Netherlands: Springer.
Krivoruchko, K. (2011).  Spatial Statistical Data Analysis for GIS Users. Redlands, CA: Esri Press, 928 pp.



by:Esri_大虾卢


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章