經驗貝葉斯克裏金——基於ArcGIS 10.1Geostatistical Analyst

經驗貝葉斯克裏金
基於ArcGIS 10.1Geostatistical Analyst


作者:康斯坦丁 克里沃切科(Konstantin Krivoruchko) 

Esri軟件研發部,高級助理研究員


翻譯:Esri_大蝦盧

1 前言

獲得可靠的環境測量的數據,是昂貴和艱苦的,在大多數情況下,造成環境污染的區域並不是人類工作和生活的區域,以至於沒有相應的收集設備來收集相關的數據。因此,在無法觀察的時候,獲取到預測值,就非常重要了。插值的過程就是通過已經在觀測地點已有的數據來獲取在一個沒有被觀察的位置的數據。

對空間數據進行插值有許多方法。一般把他們分爲兩大類:確定性方法和非確定性方法。確定方法是指採用預定義的函數來確定觀測點與預測點位置之間的距離來決定預測值,所以插值的結果是確定的(例如反距離插值)。非確定性方法是以統計理論爲基礎的。通過不確定性的預測方法來進行插值。因爲其的不確定性,所以採用了內插法來對其提供信息的需求進行限制。


要研發一個可靠的自動化統計插值模型,在很長一段時間內在GIS社區的一直是一個熱點問題。然後,這所有一個非常具有挑戰性的工作,因爲每個統計模型都是建立在及其複雜的用戶數據的交互上的。而且這些用戶數據往往極難進行數學描述。


本文的主要內容是簡要討論地統計插值方法的特性,然後提供基於ArcGIS 10.1地統計分析中一些對於經驗貝葉斯克裏金(EBK)模型實現細節。


使用各種數據進行了廣泛的測試都表明了EBK是一種可靠的自動插值器。ArcGIS提供的EBK模型也是一個可用性較高的地理處理工具,可在modelBuider 和python腳本中去使用。


2 克里金簡介

克里金是指一種最優空間預測模型的統計預測技術。它是由Lev Gandin(前蘇聯數學家與氣象學家,文章的小號斜體字都是由譯者加上去的,下同)在1959年在一個氣象應用中發展而來的(這個有爭議,但是1952年D.G. Krig提出並使用之後,1962年G. Matheron教授才正式創立地統計學)。它目前被應用在許多其他的學科中,包括了農業、礦業、環保等學科中。
克里金是一種非確定性預測模型,因此,需要爲觀察的數據假設一個統計模型。克里金將預測標準誤差與預測值之間的不確定性進行了量化。克里金預測被稱爲最優預測,就是因爲其能將預測誤差最小化。從理論上說,能將預測值和真值達到一致。
克里金預測有如下特性:
比其他的預測模型有更小的不確定性。
能過濾掉測量錯誤引發的異常值。
能夠在特徵點與協變量之間找到變量的相關性。


        當克里金預測應用於分析放射性污染的時候,他們能回答這樣的問題:在哪些位置的食品污染概率超過了放射生態學的標準?並且能夠提供相應的污染平均水平的評估以及指定區域的總污染量。


克里金使用半方差圖(也叫半變異函數)——一種對兩個不同距離和方向的地點數據的空間相關性進行量化的函數。這種半方差圖是構造在由一對觀察點的觀察值,給定一個距離h來計算其觀測值均方差的的一半,然後在y軸上把這個均方差值按照距離h進行繪製出來,用以分離這一對觀測值。
 
圖1a:半方差值計算的雙點(紅點),他們的平均值(藍色十字架),估計半方差模型(藍線)
(其中,x軸表示距離,y軸表示均方差的值)


圖1a就顯示了半方差圖值的雙點(紅點)和在這兩點之間他們的平均值的間隔距離(藍色十字架)。藍線就是估計的半方差圖模型。這個半方差圖用來定義權重,確定每個觀測數據對未取樣的位置的新數據預測的值的貢獻度。


在克里金之後,還有一些統計假設方法。主要的假設是空間平穩性(空間均勻性)。如果該數據是平穩的,則意味在該數據範圍內的所有數據的這半方差圖是相同的。


如果數據呈高斯分佈,那麼最好的預測是對附近的數據採用一種線性組合。當然還有其他的分佈,但是最好的預測往往是非線性的,因此,實際上肯定更復雜。這些數據如果轉換爲遵循高斯分佈的數據,那麼就可以在克里金預測結果與原始數據間做來回轉換。即可在ArcGIS的地統計分析中去應用了。


在古典(經典)克里金中,假設估計半方差圖是真正半方差圖的觀察數據。這就意味着數據的估計半方差圖中定義的結構來自高斯分佈的相關性。這種假設是一個非常強大的假設,但是很少用於實踐。因此,我們需要採取行動,使統計模型更爲現實。


3 經驗貝葉斯克裏金簡介

EBK不同於古典克里金方法使用的解釋誤差估計模型的半方差圖。EBK是通過估計,然後使用大量的半方差圖模型,而不是單一的一個半方差圖。以下就是EBK的必須的步驟:
1、採用半方差圖模型對數據進行估計。
2、使用這個半方差圖,在每個輸入的數據位置生成新值。
3、使用新的模擬數據重新估計生成新的半方差圖。最後根據這個半方差圖的範圍去計算需要使用的貝葉斯經驗規則。這就表明了可能觀察到的數據都可以從這個半方差圖來生成。
重複步驟第2步和第3步。每次重複,使用第一步的方法,在輸入位置模擬一組新的值來使用半方差圖進行估計。這個模擬數據就是用來估計一個新的半方差圖模型和它的份量(weight)。


這個過程就創造了一個連續的變異函數。每一個半方差圖都可以從真正的半方差圖的生成過程中可以觀察到。圖1b就顯示了這樣一個半方差圖模型的一個連續頻譜。中值的分佈是一條實體的紅線。第一四分位數(25%)與第三四分位數(75%)使用的是紅色的虛線。藍線的分佈寬度成正比,所以權重較小的半方差圖權重模型採用細線來表示。
 
圖1b:EBK在一定範圍內的半方差圖在的模型集合


默認的克里金模型在EBK的本質是由:隨機函數的種子發生數爲0,空間相關性模型b和冪模型c以及影響力權重α(該值的權重值在0和2之間)爲參數組成的模型。這種相關性模型相當於分形布朗運動(fractional Brownian motion),也被稱爲隨機遊走過程(注:隨機遊走:其概念接近於布朗運動,是布朗運動的理想數學狀態。核心概念是任何無規則行走者所帶的守恆量都各自對應着一個擴散運輸定律  http://baike.baidu.com/view/3606415.htm)。它包含了一組過濾掉了穩健的趨勢的隨機數據。


下面的一組圖中顯示了模擬三種不同影響力權重的表面插值結果。分別是α=0.1(圖2a),α=1.0(圖2b),α=1.9(圖2c)。
 
圖2a:使用半方差圖模型權重空間數據模擬的權重值爲0.1生成的預測圖
 
圖2b:使用半方差圖模型權重空間數據模擬的權重值爲1.0生成的預測圖
 
圖2c:使用半方差圖模型權重空間數據模擬的權重值爲1.9生成的預測圖


不管放大任何部分的表面,都顯示一個類似於隨機遊走的表面。當相關性模型的距離影像權重α=1的時候,線性模型顯示在圖像的中間,對應於普通布朗運動(懸浮微粒永不停息地做無規則運動的現象叫做布朗運動,布朗運動是一種獨立增量過程,是一個具有連續時間參數和連續狀態空間的隨機過程(Stochastic Process)):運動過程隨獨立的步驟遞增。然而,這種遞增依賴於分數布朗運動(分數布朗運動(fractional Brownian motion,FBM)模型具有自相似性、非平穩性兩個重要性質,是許多自然現象和社會現象的內在特性。分數布朗運動與布朗運動之間的主要區別爲:分數布朗運動中的增量是不獨立的,而布朗運動中的增量是獨立的)。如果在先前的步驟中有一個遞增的模式,那麼很有可能當前的步驟會將當前權重值增加到大於1或者減少到小於1。在圖2中,模擬表面的α較小的時候,看起來像一個混合有穩定的趨勢和隨機噪聲而模擬的表面(圖2a)。但是模擬表面的α較大的時候(圖2c),幾乎沒有任何大尺度的數據變異的表現。


以下EBK演示所用的數據,是2011年日本福島第一核電站事故後,從靠近該處的設施中測量到的被放射性銫137污染的土壤的數據,分爲六個子要素集。地圖的每個子集的結果定性都非常的相似,他們都表現出相同的特點(圖3a)。這表明默認的EBK模型提供了一個小範圍放射性污染區域進行預測的良好的預測方法。(克里金是一個區域最優預測模型,而不是整體最優的
 
圖3a:使用六個子數據集預測土壤污染的分析圖


EBK除了是使用多個半方差圖模型,而不是僅有一個模型,在對古典克里金模型上有很大的優勢以外,其還有幾個額外的優點:該模型可以用於插入非平穩的數據,以至於可以在較大的區域的內,局部的將數據改造爲高斯分佈。


在EBK中,對於大型數據集,輸入數據的第一要務就是要將數據劃分爲指定大小的子數據集。有可能重疊,也有可能不重疊。在每個子集中,產生獨立的半方差圖分佈。然後會對於每個一個位置,利用半方差圖分佈,預測生成一個或者多個子數據集。每個子數據集使用由附近數據所定義的模型,而不是受到遠處的數據的影響。但是當所有的模型都組合在一起的時候,他們就創建成了一個完整的畫面,就如同下圖中,以“臉”爲題的畫,是由一個水果籃子結合各種水果組合而成的。(圖3b)
 
圖3b:水果籃子  Giuseppe Arcimboldo (ca. 1527–1593)


雖然默認的EBK模型的數據殘差的分佈接近高斯分佈,但是通過刪除本地趨勢(local trend),殘差分佈仍然是非高斯分佈。在這種情況下,選擇另外的模型以進行數據的轉換可能會產生更好的預測結果。在地統計分析中,由模型診斷法來實現該過程。


以下是銫137的土壤污染分佈的地圖,幾方面數據顯示,他們在不同範圍的非高斯分佈在不同的區域(圖4a)。所以,這些不同的數據分佈,清晰的表明了不同的數據特徵可以有本身最優的插值模型。EBK提供了一個選項來將觀測的過程轉換爲高斯過程,使用的估計數據轉換函數如圖4b。
 
圖4a:在六個土壤污染子數據集中放射性銫的分佈
 
圖4b:數據轉換的過程

EBK通過數據轉換選項來估計數據分佈的時候,一般使用以下算法:
1. 數據轉換爲高斯分佈和半方差圖模型的評估同時進行。
2. 使用半方差圖模型,無條件的模擬新數據在每一個位置進行輸入,進行循環轉換。
3. 使用轉換後的新數據與新的半方差圖模型對模擬數據進行評估。
4. 按指定的次數重複第二步和第三步,每一次重複都生成一個新的轉換和半方差圖。
5. 使用貝葉斯規則來計算半變異函數的權重值。
6. 使用權重值對預測的結果和預測標準誤差進行驗證,然後在進行反覆的轉換和偏差校正。


當我們的相關預測不確定時,就應該要考慮到,在決策上來使用這些結果的目的。圖5顯示了利用EBK製作的靠近福島第一核電站的銫137對土壤污染(ci/平方公里)【curie(ci居里)是用來測量放射性強度的單位】的預測值以及預測標準誤差的地圖。圖5b顯示了銫137在一定數據範圍內的分佈。
 
圖5:銫137的土壤污染預測和預測標準誤差的映射地圖;95%的預測值在1和2的位置上,分別是【7.82——21,62】Ci/km2和【1.17——3.21】Ci/km2這個區間內。


 
圖5b:在福島第一核電站附近銫137土壤污染的分佈。


放射性的衰變也給我們提供了一個有趣的例子,因爲他是一個泊松分佈,而不是簡單的高斯分佈。其本質屬性,所有的泊松分佈的平均值等於他的均方差。(注:如果泊松分佈的平均值很大,那麼泊松分佈可以轉換成高斯分佈,這時,它的均方差等於平均值。)因此,變化預測往往是較小觀測數據中的低值和較大觀測數據中的高值。此過程如圖5


解釋預測連同預測標準誤差放在一起,爲我們提供了一個可以更好的理解可能的污染等級。在圖5中,分析兩個不同的標記的數據對照,更詳細的揭示了他們相關的預測值與預測誤差。位置1的14.72與3.42和位置2的2.19與0.52。


在這些位置的放射性土壤污染(95%的預測區域)大約分別是:
14.72 ± 3.52 × 1.96 ≈ 14.72 ± 6.9 Ci/km2

2.19 ± 0.52 × 1.96 ≈ 2.19 ± 1.02 Ci/km2
因此,在第一個區域纔是“真正的”污染區,結果值大於20 Ci/km2,經管我的預測值小於15 Ci/km2。如果該區域容忍的土壤污染的極限是15 Ci/km2(前蘇聯的標準),那麼在第一個區域是相當不安全的,附近的居民就應該撤離。在第二個區域,“真是的”污染可能高達3 Ci/km2,接近給定的預測值2 Ci/km2。


4 結論

經驗貝葉斯克裏金是在ArcGIS 10.1中的地統計分析擴展中提供的一個簡單而且健壯的空間數據插值方法。如果你需要了解更多的信息,請參閱ArcGIS的展現幫助,以及閱讀Esri出版社出版的相關讀物。


5 進一步閱讀

Gribov, A., and K. Krivoruchko (2012). “New Flexible Non-parametric Data Transformation for Trans-Gaussian Kriging.”  Geostatistics Oslo 2012, Quantitative Geology and Geostatistics, Volume 17, Part 1, pp. 51–65, Netherlands: Springer.
Krivoruchko, K. (2011).  Spatial Statistical Data Analysis for GIS Users. Redlands, CA: Esri Press, 928 pp.



by:Esri_大蝦盧


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章