地理信息|概述——空間數據挖掘與知識發現

一、背景

 

大數據時代到來。數據得到了極大豐富,但是知識卻極其匱乏。

 

簡單來說:這門課就是現在產生數據的方式多了,數據量爆炸,但是數據太多不好處理,得不到關鍵信息,就要採用某些方法提取有用信息,數據挖掘應運而生。

 

這門課程將數據挖掘放在地理上,就是空間數據挖掘。這門課分兩部分,數據挖掘和應用到地理上的一些算法。

 

二、定義          

 

數據挖掘:從大量數據中提取或發現(挖掘)有趣模式和知識的過程。

另外一種定義是從數據集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。

 

衆所周知,定義除了考試中回答名詞解釋沒什麼卵用,理解就好~這個定義槽點太多。

 

有趣:意思就是我覺得好玩就行,我有興趣就可以,如果恰好有比較好的結果,那就是一篇paper。(衆所周知,科研是有趣的)

有效的:結論還有別的適用情況。

新穎的:別人沒想到/懶得做的。

潛在有用性:結論能在生活中做出一點微小的貢獻。

最終可理解性:我知道你會知道我知道的。

非平凡:正在進行的數據挖掘過程是偉大的!

 

 

三、過程          

過程分三步:數據準備(米),數據挖掘(巧婦),結果解釋(炊/吹)。

能不能得到好的結果靠前兩項,有沒有paper靠吹。

 

課件裏面一句話巨真實,看的時候笑出聲。嚴肅的來說,科研是曲折的。(噗嗤)

 

數據準備過程中,數據一般用各種數據庫和數據倉庫進行存儲與管理。

 

數據挖掘,用各種技術挖掘“有趣”的模式。(真心覺得不如把有趣改成有用)

 

(又講了一遍定義...)

 

至於各種技術的思路,都非常符合正常人的想法:篩選和窮舉。

篩選:選出所有的模式,過濾無趣的。

窮舉:僅找有趣的模式(我認爲有趣的就是有趣的,這種方法像不像“海底撈”)。

 

具體方法大概可以整理到下面這張圖。

 

 

之後給出一些數據挖掘的工具,無非就是R語言,Python,Java的統計分析工具,在此就不叨叨了。

 

而關於結果解釋,主要和研究者應用目的相關。(恰恰是我研究的就是有趣的,嗯,搞科研的常規心態)但不得不說確實數據挖掘在如今商業化分析中佔有重要地位。

 

 

四、空間數據挖掘          

 

最後回到專業——空間數據挖掘。

 

定義:是在空間數據集合中發現知識,提取感興趣的空間模式和特徵、空間數據與非空間數據之間的聯繫以及其它數據特點的過程。

 

主要研究空間數據的概率分佈模式、聚類和分類特徵、屬性間的依賴關係以及時空自相關和互相關特徵等。

 

簡單來說:在地圖上加載海量數據,提取好玩的規律。

 

難點:空間數據的複雜性(數據量大),空間關係(地圖自帶),空間自相關性(我在故我在,而有的就不能在,有的必須在)。

 

空間數據挖掘的主要內容

 

最後也是給了一些主要的空間數據挖掘方法和工具。

 

 

工具:Arcgis,GeoDA,數據挖掘的傳統工具。

發佈了19 篇原創文章 · 獲贊 4 · 訪問量 2617
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章