圖數據挖掘之圖信息獲取及存儲

圖數據挖掘——圖信息獲取及存儲

            在基本概念的文章中介紹了圖和圖數據挖掘的概念,可能有不是很到位,甚至有些觀點存在偏差,希望大家多多指出,相互學習。本篇將介紹如何獲取圖的信息和存儲。

            在我們現實生活中,圖是無處不在。比如:城市交通、當前比較火的高鐵、電子地圖以及人與人之間的關係等。這些都是可以通過圖來進行描述,下面將介紹如何從這些中獲取圖的信息。最近有些網友問我電子地圖中如何獲取圖信息,我不知道是我理解錯了還是我的認識不夠,我的理解是你問我的是如何用一個圖描述一個他,不知道是不是這樣,我就按這樣的理解去解答。首先我認爲一個電子地圖應用肯定是可以獲取地圖中各個目標地點和目標地點的線路,以及線路的長度。那麼這些目標地點就是圖中的節點,而地點之間的線路就是圖中的邊,我覺得這個不是很難理解。邊的權重可以是線路的長度,也可以在加上一些服務質量上的屬性,比如說:線路的路況,交通流量以及可通行的交通工具等等,所以這就顯得更加的人性化。這就是如何從電子地圖中挖掘圖信息,這是我個人的理解,可能存在一定的偏差,望多多包涵。再舉個例子:人與人之間的關係,它也可以通過圖來描述。我們經常在各大論壇會發現“可能你認識的人”這個提示。我個人覺得就是通過圖來進行得到的。我們QQ空間上常會看到這些,這是怎麼實現的呢?首先說一說是怎麼把人與人之間的關係描述成圖,“人“可想而知就是圖中的一個節點,而邊就是將兩個人連接起來的橋樑(關係),這裏邊的權重可以通過每個節點存在共同連接的節點個數來決定(此處的共同連接點的個數就是在QQ中的共同好友個數),這裏就可以獲得相應的邊的權重,這樣就將人與人之間的關係構成了圖,我還是舉QQ好友來說明吧(此處將詳細的介紹我個人認爲在QQ中的“可能認識的人”實現的過程),那麼我們知道我們和我們自己的QQ好友之間都存在一個邊,就是存在一個關係,那麼這個關係的權重就依賴於你和你好友擁有相同好友的個數了,比如說:你和你的一個同學A是QQ好友,可能你們班的同學聯繫都比較緊密,都相互的加爲了好友,那麼你和你的同學A就存在很多的相同的好友,那麼你和你同學A之間的邊的權重肯定比較大,那麼你和一個普通的好友的關係可能就不是那麼緊密了,因爲你們擁有相同好友的個數很少。人和人之間關係圖已經可以描述了,那麼如何獲得“可能認識的人”呢?那就是通過你將你朋友那邊的好友獲取過來,就是通過你的QQ好友進行對圖的擴展,我們也發現,在“可能認識的人”中只會出現幾個,而不是全部,那麼它就需要排序了,我在舉個例子說明:還是你和的同學A是QQ好友,同時你同學A和你的同學另一個同學B是好友,但是你和同學B不是好友,那麼就可以通過A同學來確定你可能和同學B存在一個潛在的關係,那麼如何確定你關係度的強弱呢?那麼還是要看你和同學B之間存在相同好友的個數。這裏就用到了圖的遍歷,你的QQ用戶是通過你同學A進行擴展,從而找出和你有潛在關係的好友。這是我個人認爲這一功能的實現方案。可能存在偏差(由於本人還未有機會進入騰訊去看看微笑)。

          上面已將詳細的講了圖信息的獲取,那麼我們獲取信息後如何存儲呢?一般探討這個問題的前提是圖非常大,如:QQ好友圖。那麼圖的詳細信息肯定是存儲在數據庫中的,我們將節點存儲在數據庫中,每個節點的鄰接節點也存儲起來,因爲我們需要通過鄰接節點來構造圖中的邊,那麼權重也需要進行存儲,這是對於圖的信息是不做經常性變動的處理方法。如果經常的變動那就得需要從數據庫中讀取信息了,圖信息存儲到了數據庫中後,當我們需要遍歷的時候我們只需取得節點的編號就可以,不需要取出所有的節點的詳細信息,這爲了節省內存考慮。我們用一個節點的編號和邊的編號來構造一個圖,通過對圖的遍歷來實現對圖中的信息進行挖掘。

        在研究領域,最常用的數據源是DBLP(下載可以到google一下“dblp db”)。它是一個書目錄數據庫,它是存儲每篇論文的作者,以及論文之間的引用關係,這就是一個圖。這個數據源是一個xml文件,如何將這個xml文件轉化爲圖的信息呢?在這個xml文件中主要存儲的信息是:author papre cite write(作者、論文、引用、寫),其中我們知道引用和寫分別是了論文和論文之間的關係、論文和作者之間的關係。它們是將圖中的節點連接起來的重要節點,如果沒有它們,那麼整個圖的信息就是孤立的,那麼節點之間的聯繫就是圖中的邊,邊的權重需要考慮更加詳細的內容(此處由於存在研究的保密性,就不方便透露了)。此處就將這樣的數據構成了圖。

        總結:圖的信息獲取不能用一種相同的思維去看待,它需要你對圖的理解,要明白圖中的節點不只是簡單的節點(數據結構中的),它可以描述任何信息。而邊也一樣,他也可以是任何事物之間的關聯。當你理解了這些後,你將發現圖在我們生活中真的是無處不在,甚至在你自己的身體上都能發現!

        歡迎瀏覽!後期可能將介紹一下圖的搜索和遍歷方面的知識,歡迎繼續關注!再次申明,如有不對的地方還請你多多指出,歡迎留言、評論!謝謝!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章