圖數據挖掘之基本概念

圖數據挖掘——基本概念

          去年的這個時候我第一次聽到圖數據挖掘這個詞,當時有點茫然,也產生了很多對它的錯誤理解,究竟什麼是圖,而什麼又是圖數據挖掘?這篇將給大家介紹。圖,就是我們在數據結構中學到的圖,它是一中存儲信息的結構,在數據結構中它是被安排在後面的章節,所以很容易被我給忘記。圖,在數據結構中的定義的基本意思是這樣的:圖中的每個節點都可以有多個父節點,多個子節點。所以圖的結構是非常靈活的,它包含了鏈表的結構,包含了樹的結果。它是整個數據結構的綜合體。它的信息存儲也是通過節點和邊的形式進行存儲。這就是圖的概念,下面也給出了一個基本的圖的結構圖:

       

                                                                      

        如上圖就是一個圖,該圖是一個無向帶權重的圖,在我們現實生活中這樣的圖是存在的,例如我們全國的交通網絡圖,就是一個無向圖,因爲你可以到一個地方去肯定也可以沿着這條路返回,無向是兩個節點不管是哪到哪沿着這條路徑都可到達,例如:上圖的V1---->V6可達,同時V6------>V1也可達,這樣就稱之爲無向邊。當然也存在有向邊。這裏就不對圖的概念再進行詳解了,想了解可以看數據結構,書上講的比我清楚。

         那麼上面介紹了圖的概念,那麼什麼事圖數據挖掘,這個概念比較廣,它是屬於數據挖掘中的一種,我們知道數據挖掘有web數據挖掘(就是我們的百度/google等)、還有圖像數據挖掘、還有基於場地的圖像數據挖掘。我這裏就不一一列出,百度一下都知道了。那麼圖數據挖掘是什麼呢?我這裏只是依照我現在做的工作來給它一個定義,可能不是很正確(望請大家見諒)。本人現在做的就是在一個圖的關鍵詞搜索,我們知道百度/谷歌是IR,他是信息檢索,他是對文本信息進行檢索,也就是我們的html頁面。那麼圖的關鍵詞搜索和IR有什麼不同呢?我們知道IR是搜索包含我們關鍵詞的文本內容全部返回給用戶,但是返回的內容是否存在關係那就不好說,所以此時就出現了圖的關鍵詞搜索。圖的關鍵詞搜索就是返回給用戶你輸入的關鍵詞相互之間的關係,例如:你輸入張三、李四這兩個人名關鍵詞,那麼圖的關鍵詞搜索機制將會返回包含在圖中包含這兩個關鍵詞的節點這件的一個關係,一般是採取樹的方式展現出來。那麼究竟是什麼關係呢?例如:張三是李四的同學,張三是李四的哥哥、張三和李四是老鄉。那麼這裏的同學、哥哥、老鄉就是這個兩個關鍵詞之間的關係。想想在IR中能做到這些嗎?因爲IR搜索注重的不是關係,它注重的是信息,他是將包含關鍵詞的信息返回給用戶,而不考慮關鍵詞之間的關係。

         那麼在圖數據挖掘中找這種關係是如何實現的呢?例如上圖:假設要查找張三、李四這兩個關鍵詞,剛好在上圖中有V1包含關鍵詞張三,V2包含關鍵詞李四,在普通的IR系統中是就將同時包含張三、李四的節點返回給用戶(注意:此處的節點就是一個信息點,裏面有內容而V1V2....只是一個代號)。那圖的關鍵詞搜索返回關係,到底是返回什麼關係呢?上圖,我們知道從V1到V2有多條路徑,如:V1--->V5--->V2V1----->V3------>V2等等,此處就不一一列舉出。那麼我上面舉出的兩條路徑,不就是一個棵樹嗎?一個是以V5爲根節點,一個是以V3爲根節點。那麼節點V5V3就是這兩個關鍵詞之間的一個關係,這就是我上面說的如何找出兩個關鍵詞之間的關係。這裏就將如何找到兩個關鍵詞之間的關係總結一句話:找到包含關鍵詞的節點公共父節點。那麼這時候就面臨這兩個關鍵詞的公共父節點肯定不只一個,那麼我們該返回哪個?這就要看到我們圖中邊的權重了,這裏就要用到了對圖遍歷的一些算法(Dijkstra),此處就不對搜索的詳細過程進行過多的描述,後期我會發到此博客上。此處肯定的是將結果排序,按照到達公共父節點的路徑消耗和節點的權重來排序。

         總結一下,圖數據挖掘,個人認爲(可能不是很正確,僅供參考),就是在圖中進行挖掘出我們想要的信息,例如上面說的節點之間的關係,而圖的關鍵詞搜索只是其中一個方面,它只是對圖進行搜索,同時以樹的形式進行返回,同時也以樹的形式展現給用戶。

         此篇是有關圖數據挖掘的有關概念上的介紹,以下篇我將講解,在現實生活中如何將信息存儲爲圖,後期我將會介紹圖的關鍵詞搜索,一些當前比較流行的圖搜索系統(本人也已做出了一個類似的系統),並介紹他們的算法實現。歡迎繼續關注本博客。如有寫的不到位之處歡迎指出,本人將萬分感激,由於本人也是初次接觸圖方面的研究,也沒有太多理論上的理解,只是通過自己在實現方面獲得的一些感想,並把這些感想分享給大家。

       謝謝瀏覽!


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章