空間統計(三)聚類分佈製圖

這裏寫圖片描述

這組工具中包含衆所周知的熱點分析工具,通過這個工具我們能捕獲到大量數據中的熱點和冷點,對我們分析問題有很大的幫助。例如,在犯罪分析中,我們可以研究哪些位置犯罪頻繁並且聚集,對增設警力有重要的輔助作用。工具集中的其他工具也有類似的作用,都是通過執行聚類分析來識別具有統計顯著性的熱點、冷點和空間異常值的位置。

依照慣例,我們還是 one by one 來看。




Similarity Search

相似搜索工具,顧名思義,工具根據要素屬性確定哪些候選要素與輸入要素最相似或者最不相似。

舉個栗子:

我希望找到與聖地亞哥5歲以下兒童、未成年人、65歲以上老年人人數分佈相似的城市:

這裏寫圖片描述

工具中我做如下配置:

這裏寫圖片描述

結果在這裏,其中 Similarly Rank 爲 1 的即爲三個年齡屬性最相似的城市 Orange:

這裏寫圖片描述

匹配方法參數中提供了3種算法,分別爲:屬性值、等級屬性值或屬性剖面(餘弦相似性)。

可能的應用
- 人力資源經理可能希望能夠證明公司的工資範圍。找出在大小、生活成本、市容建築方面相似的城市後,她便可以查看這些城市的工資範圍,從而查看他們是否在此行列。
- 犯罪分析師希望搜索數據庫以查看某罪行是否屬於較重犯罪形式或有重罪趨勢。
- 課外健身計劃在 A 城極其成功。計劃提倡者期望找到與其計劃推廣的候選城市具有相似特徵的其他城市。
- 執法機構用此方法揭露毒品種植地或生產地。標識具有相似特徵的地方可能有助於制定未來的搜索目標。
- 大型零售商不僅擁有數個成功店鋪,也有少數業績不佳的店鋪。找到一些具有相似人口特徵和環境特徵(交通便利性、知名度以及商業互補性等等)的地方有助於標識新店的最佳位置。




Grouping Analysis

我們在學習研究事物時,有事需要對事物進行歸類從而幫助理解與分析。在ArcGIS 中,分析分組分析工具就是來進行這個邏輯分類過程,它會執行一個分類過程來查找數據中存在的自然聚類。要素相似性是基於您爲分析字段參數指定的一組特性,同時還可以包括空間屬性或空間-時間屬性。

這裏寫圖片描述

在這個工具中有個重要的參數—— Spatial Constrains,用於設置分組過程是否受某種空間關係約束,具體可選的方法如下:

  • CONTIGUITY_EDGES_ONLY — 共享一條邊的相連的面才屬於同一個組。
  • CONTIGUITY_EDGES_CORNERS — 共享一條邊或一個折點的相連面才屬於同一個組。
  • DELAUNAY_TRIANGULATION — 同一個組中的要素至少具有一個與該組中的另一要素共用的自然鄰域。自然鄰域關係基於 Delaunay 三角測量。從概念上講,Delaunay 三角測量可以根據要素質心創建不重疊的三角網。每個要素是一個三角形結點,具有公共邊的結點被視爲鄰域。
  • K_NEAREST_NEIGHBORS — 同一個組中的要素將相互鄰近;每個要素至少是該組中某一其他要素的鄰域。鄰域關係基於最近的 K 要素,您可以在此爲“相鄰要素的數目”參數指定整型值 K。
  • GET_SPATIAL_WEIGHTS_FROM_FILE — 空間關係和可選的時態關係通過空間權重文件 (.swm) 進行定義。使用“生成空間權重矩陣”工具創建空間權重矩陣文件。
  • NO_SPATIAL_CONSTRAINT — 只能使用數據空間鄰域法對要素進行分組。要素不是必須在空間或時間上互相接近,才能屬於同一個組。

可能的應用
- 假設您擁有來自所在州周圍農場的沙門氏菌樣本,以及包括類型/類別、位置和日期/時間在內的屬性。爲了更好地瞭解細菌如何傳播和擴散,您可以使用分組分析工具將樣本劃分爲各個“爆發”。您可能決定使用空間-時間約束,因爲同一次爆發的樣本會在空間和時間上會非常接近,而且也會與相同類型/類別的細菌關聯。確定分組之後,可以使用其他空間模式分析工具,比如標準差橢圓、平均中心或近鄰來分析每一次爆發。
- 如果您收集了有關動物觀察方面的數據,以便更好地瞭解它們的領地,分組分析工具可能很有幫助。例如,瞭解鮭魚在不同生命階段的聚集地點和時間,可以幫助您規劃保護區,以幫助確保成功繁育。
- 作爲一名農學家,您可能想將研究領域內的不同土壤進行分類。對通過一系列樣本發現的土壤特徵使用分組分析可以幫助識別出明顯的、空間上相鄰的土壤類型的聚類。
按購買方式、人口統計特徵和/或旅行方式對客戶進行分組,可以幫助您爲公司產品制訂有效的營銷策略。
- 城市規則師常常需要將各個城市劃分成不同的鄰域,以便有效地定位公共設施、促進地方能動性和提高社區參與度。對城市街區的物理和人口統計特徵使用分組分析,可以幫助規劃師確定具有相似物理和人口統計特徵並且在空間上相鄰的城市區域。
- 每當對聚合的數據進行分析時,生態謬誤都是一個衆所周知的統計推斷問題。通常,用於分析的聚合方案對我們想要分析的內容沒有任何關係。例如,人口普查數據是根據人口分佈而聚合,而人口分佈情況可能不是用來進行火災分析的最佳選擇。針對與目前分析問題準確相關的一組屬性,將可能的最小聚合單位劃分成同質區域,是降低聚合偏差和避免生態謬誤的一種有效方法。




Hot Spot Analysis (Getis-Ord Gi*)

熱點分析工具是個 Most Popular 工具,經常會被用到,通過此工具,我們可以來識別有統計顯著性的熱點和冷點。例如,警察局會調查哪個區域是刑事案件的高發區?這就是一個典型的熱點分析例子。如下圖,黑點表示報警位置,其中屬性表中包含一個報案次數的字段,得到了犯罪熱點。從而警察局可以考慮在熱點位置增設警力。

這裏寫圖片描述

此工具的工作方式爲:查看鄰近要素環境中的每一個要素。因此,僅僅一個孤立的高值不會構成熱點,說白了就是,單個要素以及它的鄰居都是高值纔算是熱點。在熱點分析工具中,z 得分和 p 值都是統計顯著性的度量,用於逐要素地判斷是否拒絕零假設。置信區間(Gi_Bin字段) +3 到 -3 中的要素反映置信度爲 99% 的統計顯著性,置信區間 +2 到 -2 中的要素反映置信度爲 95% 的統計顯著性,置信區間 +1 到 -1 中的要素反映置信度爲 90% 的統計顯著性;而置信區間 0 中要素的聚類則沒有統計學意義。

如果要素的 z 得分高且 p 值小,則表示有一個高值的空間聚類。如果 z 得分低併爲負數且 p 值小,則表示有一個低值的空間聚類。z 得分越高(或越低),聚類程度就越大。如果 z 得分接近於零,則表示不存在明顯的空間聚類。

關於此工具的建議:
- 輸入要素類是否至少包含 30 個要素?如果少於 30 個要素,則結果不可靠。
- 您選擇的空間關係的概念化是否合適?對於此工具,建議使用固定距離範圍方法

可能的應用
- 應用領域包括:犯罪分析、流行病學、投票模式分析、經濟地理學、零售分析、交通事故分析以及人口統計學。其中的一些應用示例包括:
- 疾病集中爆發在什麼位置?
- 何處的廚房火災在所有住宅火災中所佔的比例超出了正常範圍?
- 緊急疏散區應位於何處?
- 峯值密集區出現於何處/何時?
- 我們應在哪些位置和什麼時間段分配更多的資源?




Optimized Hot Spot Analysis

在最近幾個版本的 ArcGIS 中多了一個 “優化的熱點分析工具”,我們如何理解這個工具呢?幫助文檔中有一個比喻,好比“數碼相機自動根據光線、拍攝主體與背景對比度的讀數,來確定合適的光圈、快門速度和焦點”,優化的熱點分析是根據輸入數據的特徵派生參數,從而獲得產生最佳熱點結果的設置,然後執行熱點分析工具。

簡而言之,如果拿到單反,使用“優化的熱點分析工具”好比把拍照模式調成了“全自動”,而使用“熱點分析工具”好比把拍照模式調成“手動”,熱點分析工具允許我們完全控制所有參數選項。運行優化的熱點分析工具並記錄其使用的參數設置,有助於優化設置熱點分析 (Getis-Ord Gi*) 工具的參數。

打開這個工具,我們會發現,這個工具太可愛了,除了輸入和輸出參數,其他所有參數都是可選的,都可以不填! 果然是全自動模式,傻瓜相機版熱點分析。但是,這幾個參數決定了優化熱點分析的方式,爲了“照片”更美,還是需要了解些東西的,一起來看看:

分析字段:當要分析的數據中存在一個字段存儲了採樣值,我們想了解這個採樣值的高值與低值的聚集區域,那分析字段就需要選擇這個字段。

當我們的數據不具有這樣的採樣值,並且我們希望研究的是點的計數,也就是研究:哪裏存在很多點?哪裏存在很少點?這時,選擇一種聚合方案就變得重要了。

工具中提供了三種聚合方案:

1) COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS:採用漁網聚合,漁網的網格大小由工具根據點的距離關係決定。

這裏寫圖片描述

2) COUNT_INCIDENTS_WITHIN_AGGREGATION_POLYGONS:提供聚合面以覆蓋事件聚合面參數中的事件點數據。計算每個面內的事件數。例如:計算加州每個城市的消防站的聚集情況。

這裏寫圖片描述

3)SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS:鄰近事件將聚合在一起,從而創建單個加權點。各點的權重值是該位置的聚合事件數。

這裏寫圖片描述

無論是哪種方法,在工具的日誌中會提供一個研究這些數據聚類的最優的距離,類似:

這裏寫圖片描述




Cluster and Outlier Analysis (Anselin Local Moran’s I)

給定一組加權要素,使用 Anselin Local Moran’s I 統計量來識別具有統計顯著性的熱點、冷點和空間異常值。

熱點分析(Getis-Ord Gi*) 工具也是查找熱點和冷點位置的有效工具。但是,只有聚類和異常值分析(Anselin Local Moran’s I) 工具可以識別具有統計學上的顯著性的空間異常值(高值由低值圍繞或低值由高圍繞的值)。

輸出要素類中包含:Local Moran’s I 指數、z 得分、p 值、聚類/異常值類型 (COType)

如果要素的 z 得分是一個較高的正值,則表示周圍的要素擁有相似值(高值或低值)。輸出要素類中的 COType 字段會將具有統計顯著性的高值聚類表示爲 HH,將具有統計顯著性的低值聚類表示爲 LL。
如果要素的 z 得分是一個較低的負值(如,小於 -3.96),則表示有一個具有統計顯著性的空間數據異常值。輸出要素類中的 COType 字段將指明要素是否是高值要素而四周圍繞的是低值要素 (HL),或者要素是否是低值要素而四周圍繞的是高值要素 (LH)。如下圖可以幫助理解:

這裏寫圖片描述

COType 字段將始終指明置信度爲 95% 的統計顯著性聚類和異常值。只有統計顯著性要素在 COType 字段中具有值。

可能的應用
聚類和異常值分析(Anselin Local Moran’s I) 工具可識別高值密度、低值密度和空間異常值。還可幫助您解決如下問題:
- 研究區域中的富裕區和貧困區之間的最清晰邊界在哪裏?
- 研究區域中存在可以找到異常消費模式的位置嗎?
- 研究區域中意想不到的糖尿病高發地在哪裏?
可在經濟學、資源管理、生物地理學、政治地理學和人口統計等許多領域中應用此工具。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章