關於GIS的一些感悟·思考

本文想法和初步動筆起源於10號,但是最近事情比較多,一直到現在才完稿。其實起源是從5月初本科學弟學妹的畢業答辯開始的,主要談一談聽完答辯的感悟以及對於GIS學科的一些引申思考。

文章目錄

1 Defence:

由於疫情的原因,今年本科學院的學弟學妹畢業論文答辯採用了騰訊會議網上形式。不過由於各種原因,聽得比較完整的還是直系基地GIS方向的答辯,因此也就針對這幾個內容稍微提點東西。先Po一下大家的題目。

一共是9位參與答辯。

第一位是基於新浪微博對洪水災害時間主題挖掘與淹沒信息做提取。從選題來說,是近些年GIS一個比較熱門的方向,內容涉及的大致關鍵詞應該包括位置語義,地理語義,文本挖掘,社交媒體地理學。而這個在災害方面的響應也是一個比較火的方向。大概思路就是基於微博數據,利用比較流行的文本挖掘模型LDA做洪水災害事件信息提取,這裏是淹沒深度信息,以及相關的主題分析。主題分析或者主題挖掘是屬於NLP方面比較專業的一類模型,這裏不細闡述,感興趣的同學建議自行搜索關鍵詞。當前的研究基本上就是從微博文本來進行文本處理,如果是不含位置信息的微博(即無法直接獲取經緯度),通常必須先從微博內容獲取相關的地名,這應該可以算是位置語義或者叫地理語義。然後做geocoding,而其餘的微博內容可以擴充其他文本挖掘的信息,在這個研究裏就是淹沒深度。這類研究的意義就在於災害的應急響應以及預警。在目前的大數據時代,微博能非常快速地傳遞相關信息。因此就像系裏老師點評的,這類研究最好能做成實時的app,會更有意義。國內微博數據分析比較多的相關團隊還是不少的,北京大學袁曉如老師團隊,地理所王江浩老師也做了一些研究,此外最近GeoAI講座裏的胡英傑老師也是這塊研究非常優秀的老師。感興趣的可以多去了解,至於模型的話,類似word2vec,甚至於去年大火的BERT是否可以用到裏面做結合也是很有意思的。最後的最後,其實我想說另一點,研究的技術性和新穎程度很高,但是我重新回顧的時候在考慮一個問題,題目裏的洪水災害事件,由於我沒有聽到這個彙報的全部內容,所以我不確定究竟是洪水災害事件或者是城市內澇事件。作爲一個GIS的研究,我認爲本質上還是基於地理學去分析問題,因此基礎的地學現象和定義要明確。這個研究也讓我想起我本科期間做的一個工作,基於城市藍綠景觀的空間變化與內澇區域的聯繫研究,其中我爲了檢驗內澇區模擬準確性,當時也是採用了一個微博數據,有人在微博上分享了他整理的福州某次內澇事件的60個積水點的地點信息,我根據那個數據做了一個簡單的geocoding,形成空間文件。

相關資源:

第二位是用地理加權迴歸模型用高光譜遙感數據估算土壤有機質。由於我對高光譜這塊不是很瞭解,所以意見更多集中在地理加權迴歸和土壤有機質方面的。地理加權迴歸(Geographically Weighted Regression, GWR)是Forthingham教授提出空間統計迴歸模型。本質上這個模型是基於地理學第二定律——空間異質性提出的,目前GWR有大量的模型發展和應用研究,最近Forthingham教授團隊正在拓展GWR相關的模型,最新成果是MGWR(Multi-scale Geographically Weighted Regression)。之前在某個會議見過他的弟子Ziqi Li,他也是MGWR模型的作者之一。當時他在會議上做了一個很有意思的研究,就是比較了R裏面不同R包(R語言中至少有3個GWR相關的包),ArcGIS,GWR4(Forthingham教授團隊開發軟件)以及Python的pysal包的GWR結果,即用同一套數據,不同語言,軟件執行GWR,結果表明,除了ArcGIS以外,其他結果是一樣的,可以復現。事實上由於ArcGIS是一個商業軟件,有些時候是會一定程度上忽略模型理論假設的限制以及針對參數做優化計算的,由此造成了結果差異。因此使用GWR要慎重。GWR這個模型,從模型求解角度,一定程度會有過擬合現象。這也讓我想到前一段,我與我的大導師討論研究計劃,我提到會用一個用GWR做校正的數據,我的大導師很明確跟我說GWR有過擬合現象,讓我不要用這個模型。因此這個模型在各種使用上仍需要慎重。當然我個人角度還算蠻推崇這個方法,我也在我的幾篇論文裏都有用到這個方法。GWR用於估算土壤有機質,從應用角度,可能稍微比重金屬更新一點。但是這個角度創新點我覺得不是特別高,另外做這類迴歸和估算,我們要考慮的不僅僅是精度,還要考慮到研究模型的普適性和可推廣性。土壤有機質是比較難測量的變量(有做過土壤地理實驗的都知道測起來很麻煩),所以我們用GWR和高光譜就是想快速獲取大範圍的土壤有機質,因此我們選用的一些參數就要儘可能泛用以及便於測量。此外尺度效應也是一個很重要的點。另外GWR的變式還包括類似GAWR(地理海拔加權迴歸),GTWR(地理時間加權迴歸),這些都是後續可以拓展的模型。土壤有機質其實是生態學方面尤其是植被碳循環的重要變量之一,如果做好了,可以爲後續的研究提供很多幫助。另外關於題目,我重新讀的時候覺得有些彆扭,事實上應該是用高光譜遙感數據作爲輸入,然後用GWR來估算土壤有機質。其實我覺得可以把輸入數據和方法都放在基於的後面,似乎更舒服一些,如基於高光譜與地理加權迴歸的土壤有機質估算。不過也僅是個人意見。

相關資源:

第三位也是研究土壤相關的,基於INLA-SPDE做平潭土壤鉛含量預測的不確定性研究。INLA-SPDE是一個空間貝葉斯模型。空間貝葉斯的關鍵就是可以推斷後驗概率,因此不僅可以得到模型估計值,也能得到模型估計的不確定性。事實上空間精度和空間不確定性分析也算是GIS近些年逐漸興起的一個重要分支領域。我在18年參加了Spatial Accuracy的國際會議,對此有頗多感悟,我也做了一些相關的研究。簡單來說就像量子力學裏有一個知名的測不準定律,空間數據也是如此,各類誤差和不確定性是廣泛存在矢量與柵格數據的,而這些誤差和不確定性隨着數據處理會傳播到最後的結果中,但是很多時候我們無法判斷,這些誤差和不確定性是增大或者減小,同時對一個數據而言,如果不評價它的精度,在應用上就會充滿很多疑慮。個人的看法在於過去本身空間數據獲取手段相對匱乏,難度高(如測繪級數據),需要花大量時間收集數據,當然這樣子收集數據一般而言質量也較高,精度也高,但是數據不夠豐富,不夠多的前提下,想再去關注精度問題還是比較難的。而近些年井噴式的多源地理大數據以及對地觀測數據,算是比較完美解決了這個問題,但是隨之而來的就是大量的數據質量問題,這也是空間精度和空間不確定性分析近些年興起的一大原因。回到貝葉斯模型這塊,空間貝葉斯模型很重要的點就是推斷不確定性,某些研究裏可以視爲風險值,爲決策提供輔助。時空貝葉斯統計與模型也是我未來可能涉及的研究重點,這一塊,我個人推薦英國格拉斯哥大學的Duncan Lee教授,今年早些時候聽過他的報告。他是時空貝葉斯統計的專家,也開發了相關的R包。另外再來講講土壤重金屬元素的預測,這一塊其實有各類空間插值方法等研究,因此從領域而言不算太新,如何挖掘新因子以及找到相關的泛用預測自變量,應該是比較有意思的延伸研究。另外答辯過程裏,老師提到了選空間插值的問題,這個讓我想到一個對於空間統計分析的思維培養。我個人認爲的空間統計研究流程應該如下。事實上空間插值方法都有一個前提假設,就是插值的這個對象應該是符合地理學第一定律——具備空間自相關性的。此外這個研究還涉及到做模型的交叉驗證問題,模型的驗證也是具有一定的技巧的。

Created with Raphaël 2.2.0確立研究地學問題收集數據整理、清洗數據數據探索性分析(數據分佈特徵,是否具有空間自相關性,空間異質性)根據探索性分析結果選用合適的空間模型分析解釋模型輸出結果

相關資源:

第四位是分析學校所在的大學城城中村的暴雨洪澇災害脆弱性研究。可以說比較貼近校園。當時我本科畢業選題也是基於校園的三維模型相關研究。從選題來說,脆弱性(vulnerable)或者恢復力/韌性(resillence)也算是近些年災害與氣候變化領域很火的主題。尤其與聯合國的SDGs結合,今天剛好看到了一篇華東師大相關的研究,也可以參考。這位的研究可以說是比較傳統的GIS空間分析研究,建立評估指標體系,賦權重,收集數據與空間疊加,可以說是比較典型的小數據地理傳統研究。整體來說,數據蒐集工作很紮實,分析比較清晰。當時答辯老師提了幾個問題,如指標體系需求,指標體系權重確立,尺度效應的作用,針對這幾個點我也有些看法提了一下,指標體系,其實他定義的指標體系我感覺比較像個人確立的,當然對於小尺度區域性研究我覺得是可以的,但是我更推薦可以基於一個大的理論框架做指標體系的本地化和區域化,這類研究會讓我想到比較流行的P-S-R(壓力-狀態-響應)框架。指標體系權重確立方法有很多,我本科創新項目答辯時也用到這個權重確立,當時我覺得避免主觀打分,採用了熵值法,但是老師提的建議是,其實這類研究(我的項目也是基於校園的空間分析)熵值法可能不如AHP準確,因此權重方法確立也是根據具體情況而言。最後是尺度效應,老師們當時提的是經濟指標在這類小尺度研究是否與脆弱性/恢復力相關,普遍認知裏面社會經濟因子對大尺度區域的恢復力有顯著貢獻,這一點會讓我想到最近參與的一個小研究,關於新冠肺炎粗病死率的一張圖。我當時把概括,能保持粗病死率爲0的除了有物理屏障優勢的幾個省份以外,江蘇就是社會經濟屏障的典型(經濟實力雄厚)。可以看到在應對這類公共衛生突發事件(突發災害也是相同)的時候,社會經濟示例雄厚的區域往往具有更強的恢復力/韌性。這個基本現象在大尺度研究下大概率是沒問題的,但是當區域放到小尺度研究呢?我思考了下在類似城中村以及小區域研究的普適性。以災害發生以後的資源調配和政府救助爲例,假如存在兩個受災村子。一個村子的財政實力較爲一般,另一個村子的財政實力稍微雄厚一些。財政實力略微雄厚的村子選擇自行救助。財政實力一般的村子由於自身經濟實力受限,上報上一級政府請求援助,但是上一級政府經濟實力非常雄厚。由於這個原因,反而財政實力一般的村子可能在災後恢復要比另一個村子快。當然這也是個比較極端的例子,但我個人認爲小尺度區域受災害影響的時候,很多情況都是上報上級政府求助(假定是救助是均質的,受災程度相同,救助款也相同),那麼本身村子的經濟實力對於恢復力的影響是如何就比較難以判定了。

此外,我記憶比較深的是做了大量的實地考察和調研。對於小尺度研究,這樣子的研究精神和收集數據方式,我是非常讚賞的。當時我也在QQ羣裏點評了一下,事實上GIS學科通常被認爲沒有野外,這是不對的。野外實地考察,調研對於GIS數據精度和準確度尤爲重要,RS就更不必說了,無論是做定性遙感的土地利用分類或者是定量遙感的地表參量反演,都需要有地面實測數據的驗證。GIS並不是完完全全坐在計算機面前就可以完成的工作。往往GIS出身的同學會產生這類認知差異,我認爲有必要提出作爲點評的點。這也讓我想起前幾天在微博上看到的一個很有意思的研究。由於疫情期間封城措施,盒馬生鮮在這個特殊時期開始紅火起來,但是GeoHey的官微推了一個有意思的問題(如下圖)。幾乎全國各地盒馬都在這次疫情爆紅,但是在福州失敗了。首先我覺得原因有很多,但是當時我看到微博的第一反應是因爲福州有永輝超市。永輝是發家於福州的連鎖超市,是當地“農改超”的典型案例,在福州本地有較爲深厚的消費羣體根基,而且本身就是以生鮮蔬菜的售賣爲特色,因此可能對盒馬生鮮產生了一定的壓制。當然這只是可能的原因之一,具體的原因肯定很複雜,感興趣的同學完全可以就此研究,而這也說明了,對一個區域不實地考察瞭解的話,是很難對一些地學現象作出解釋的。當然我的認知還得益於某位學長的創新項目。最後一點,這位同學可以和第一位同學合作,這就是實現大數據與小數據的結合了。

相關資源:

第五位是基於當下流行的深度學習和圖片識別技術對交通標誌進行檢測。首先從計算機技術角度出發,這位同學對計算機視覺算法方面的研究非常深入,並且在計算視覺處理的基礎上,集成開發了一個Android App,可以說在GIS開發上有着非常不錯的造詣。這類研究是當下非常火的無人駕駛熱點之一,在當下的時代,GIS不僅在傳統應用行業中發展,現在已經擴展到了各個相關領域,無人駕駛就是其中一塊。當然這個部分對於算法和計算機技術要求頗高,感興趣的同學可以繼續深入瞭解。從研究來看,思路使用了計算機視覺裏的圖像處理增強和變換相關算法,對圖片做了一定的處理,增強特徵。然後結合深度學習來實現圖像檢測。這裏要科普一個概念差異(如下圖)。目前來說,就我的認知,這位同學的研究應該還是在image classification的那一步,檢測圖片裏面有沒有交通標誌,有的話,自動採集收集數據。從本科畢業論文而言,做到這樣子是非常不錯的,我個人很佩服。另外這類app的目的也很好,就像看到蔣波濤老師說的話(如圖),目前深度學習入門教程現在太多了,大家的工作都集中在深度學習各種各樣的Hello World上,但是缺少具體應用的各類數據集。因此像這樣子的一個用於採集相關數據的app可以說在製作用於深度學習的數據集上提供了基礎和極大的方便。當然後續研究可以從目標檢測,和語義分割相關的進行深入研究。最後,我認爲這個研究有一個算不上問題的小問題,就是這個研究的“地理味”不夠濃。這一點我後面也會簡單聊一聊。

相關資源:

第六位是偏向遙感的研究。利用了Landsat衛星影像監測龍巖市上杭縣礦區的生態環境狀況。基於多個遙感指數提取包括地表溫度,溼度,NDVI等比較全面的生態環境遙感監測常用產品。生態環境遙感監測算是近些年來比較火的一個概念。這個研究雖然題目上說的是針對礦區的研究,不過在聽報告後發現,是做整個上杭縣的研究。上杭縣的礦區是上杭重點的生態修復區。我碩士所在的研究組剛好也有參與過相關的生態修復項目,不過我並沒有參與這個項目,只是簡單聽過這個項目。接下來談幾個點,就像答辯老師提的,這個研究的另一個問題是這個研究裏使用的遙感監測產品很多都是基於NDVI或者是相關的其他指數衍生出的各類數據,印象中溼度是基於NDVI和一個簡單的線性公式簡單計算得到,因此從這個角度而言,其實這些產品的同質性極強。給我的感覺就是這個研究或者說這類研究,尤其是遙感領域的同學在做這方面研究時,通常更多的都是堆砌大量遙感數據產品。但是缺乏足夠的生態學含義和框架將這些數據更好地整合在一起,這樣子感覺有點像記流水賬,就是把能算的遙感數據全部列上去。這個部分,最近比較火的國土空間規劃可能可以提供一個參考,就是基於這些數據來計算生態環境承載力之類的綜合指標,這樣是兼顧生態學意義與遙感數據的方法,相比於比較單個產品更有意義。最後也提一句另外一個相關的內容。去年聽到學弟學妹參加Esri競賽時用的一個遙感指數,基於遙感的生態指數,Remote Sensing Based Ecological Index,RSEI。這個指數是福州大學徐涵秋老師團隊提出的,簡單說就是基於NDVI,MNDWI,LST和遙感計算的溼度指標做主成分分析然後疊加生成的一個指數。按照論文裏的說法,指標越接近1,生態環境質量越好。但是這樣子一個指標是否就具備普適性,同時這個指標完全能表徵生態環境質量嗎?我個人還是有些保留意見的。不過後續擴展研究如果可以基於這個指標做些研究,也還是不錯的。

相關資源:

第七位是基於WRF數據改進數值模式輸出結果的不確定性。WRF是美國NCEP和NCAR開發的天氣數值模擬模式。這裏不詳細贅述了。我博客裏有介紹過安裝相關內容,感興趣的可以去查找一下。簡單說,這是一個可以模擬真實氣象狀況的數值模擬模型,從輸出來說,可以爲地學研究提供多維度的氣象變量。但是要注意的點在於,氣象學與地理學的尺度概念有差異,氣象學,尤其是數值模式的高分辨率與地理學的高分辨率差異較大。在氣象學裏,全球1°就可以算是高分辨率,而地理學,尤其遙感領域的高分辨率通常是亞米級數據。因此WRF通常輸出最細也是在3KM左右,這是地學應用上一定的限制。這個研究其實無關WRF,就是討論WRF輸出與實測數據如何結合改進預測,降低不確定性。從概念上講,是類似data assimilation(數據同化)的研究,不過我覺得從實際操作角度更接近data fusion(數據融合)。同樣是採用了當前流行的深度學習神經網絡模型。當然老師們提了個問題,單點數據與網格如何實現結合。這也是一個比較普遍的地學問題。但是事實上WRF,包括WRFDA模塊,在進行數據同化的過程中,他們對於稀疏觀測站點的真實數據與模型輸出的同化流程操作與地理學的處理思路是有差異的。地理學往往需要遙感作爲尺度擴展的中介。而WRF是需要對觀測站點做一個所謂的局地化方案(印象中是有點類似空間插值的思路),感興趣的同學可以自己去深入瞭解。但是目前WRF模型輸出的降尺度,數據融合,數據同化已應用到更細尺度的數據產品。這也是地理學重要的數據來源與補充。尤其深度學習的出現,爲AI和地球系統科學提供了另一個契機。說到這,計算機的國際會議,ICLR 2020會議開始組織一個AI與Earth Science的workshop,包括近年來數據科學競賽有大量的相關題目。無一不顯示了深度學習技術與地球系統科學結合的潛力。這方面的研究還有很多值得深入的地方,地理學如何爲這類研究提供更好的支撐也是值得考慮的。

相關資源:

第八位是以平潭島爲案例,結合土地利用數據分析海島的生態安全格局。生態安全也算是這幾年興起的生態學領域熱點研究。我碩士導師是國家重點研發專項“長三角城市羣生態安全保障關鍵技術研究與集成示範”子課題負責人,其實同期的國家重點研發專項一共有四個關於城市羣生態安全相關的,分別爲京津冀,長三角,珠三角以及閩三角。事實上學院的多位老師也參與了閩三角的子課題。當前生態安全的幾個關鍵問題主要包括水生態安全,糧食生態安全,大氣污染,生物多樣性等等。這個研究其實是基於土地利用數據集合景觀生態指數評價生態安全格局,研究裏採用了水文分析中的“源-匯”理論進行分析,事實上可以理解爲對生態脅迫效應的研究,從而分析生態用地擴張的格局。這裏推薦一篇認識的一個師姐最新發表的文章(鏈接在後面)。說到這個也提一下研究題目的問題,在題目裏出現了兩個格局,因此確實讀起來比較拗口,這一點老師們也提到了。如果以“源-匯”理論作爲關鍵創新點,題目可以改爲基於“源-匯”理論的生態安全評估格局研究,當然這僅僅是個人意見。從主題而言應該是城市化擴張的生態安全影響。另外海島生態安全分析也是一個當前比較特殊的研究領域,也是值得注意的一個點。另外還可以考慮結合土地利用模擬模型,對未來的生態安全情景進行模擬分析。

相關資源:

最後一位是分析師大區域的溪源江流域的洪澇災害風險地圖設計,不過我因爲當時在飯點,聽得斷斷續續,不是很完整。具體內容,我就不具體點評了。整體內容是偏向地圖設計的研究,個人看法是可以和前面第一位和第四位同學交流。地圖設計的研究,應該不僅限於製圖。在製圖的基礎上,可以聯繫陳述彭院士提出的地學信息圖譜概念,將多年災害的洪澇災害地圖集成到一起,形成地學信息圖譜,從而推斷相關規律。這應該也是個蠻有意思的研究。

相關資源:

2 Topics

總的來說,這九個研究裏面(包括我也圍觀了其他GIS系的部分答辯)有很多選題比我們當年要新穎有趣得多,學弟學妹們比我們當年做畢設的時候敢嘗試的多,當年我們年級GIS系的選題大量集中在面向對象的遙感分類。有很多題目都是不僅侷限於GIS的傳統領域了,如計算機視覺,深度學習,WRF,文本挖掘。

地理學本身是一門很綜合的學科,因此涉及到的地學現象十分複雜。而GIS作爲分析地理學的關鍵定量工具,勢必要求在建模的過程裏必須對地理學,地學現象有深入瞭解。但是GIS學科當前的教育似乎比較多集中在GIS軟件使用,分析,開發,遙感,偏向計算機科學方面的課程,在地理學基礎理論知識方面的課程相對少一些(可能我的瞭解比較片面,也不完全對)。當然這也是因爲時間緣故,同等時間想兼顧多個內容確實很難。

當然本科期間強調學習的廣度,而碩士生以及博士生的學習會更強調學習研究的深度。因此先把計算機基礎打好也並不是壞事。如果感興趣繼續做這方面深入研究的同學,本科期間應該先把計算機基礎打好。在碩博期間挑選一個適合自己的主題,深入研究挖掘。

這樣的研究就要求我們要走出GIS的限制(指去關注感興趣主題的核心),把研究放在自己關注的感興趣區域,深化這部分的專業知識瞭解,而隨着對關鍵領域的深入研究挖掘,往往會出現一些情況,就如上面有幾位同學做的研究,我提到的地理味不夠濃。當這情況出現時,應該回歸本心——重新回顧GIS學科,去思考如何再和地理學,GIS結合?

舉幾個我個人認爲比較有意思的,GIS分析可以運用的特定研究。

籃球場的投籃分析(見如下蝦神的博客,此外Esri也有個彙報是基於ArcGIS Model Builder分析的)。

B站彈幕分析,可以基於地形分析的思想進行研究。可以看到彈幕數量有這個波形的存在(如圖)。也有大神基於這個用Python實現全自動製作視頻。

【梗百科】如何全自動做一期小仙若/王老菊阿飛梗百科

這與下面Science論文裏的這個高程截面圖是類似的。

Science論文

還有一個與上面的類似研究。

《名偵探柯南》B站彈幕瀏覽器

不過GIS的基本理論還是要在本科期間就建立起來並重視的,就比如目前公認的地理學第一定律和第二定律,因爲這是一切空間分析和空間統計的基礎。

另外關於研究題目的起草,這次答辯有不少老師提到,我前一段剛好看到一名知名的學術博主的評論。覺得甚有益處,也分享給大家(下圖)。

記錄了一些自己的感悟和感受,可能比較隨意,主要用於與大家交流。大部分觀點爲個人意見,僅供參考。

最後還是祝大家畢業快樂呀!!!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章