Web數據挖掘綜述

1.     基於WEB 數據挖掘的分類

根據挖掘的對象不同我們可以把基於WEB 的數據挖掘分爲三大類:

²  基於WEB 內容的挖掘(WebContent Mining)

²  基於WEB 結構的挖掘(WebStructure Mining)

²  基於WEB 使用的挖掘(WebUsage Mining)

1)      基於WEB 內容的挖掘

       所謂基於WEB 內容的挖掘實際上就是從WEB 文檔及其描述中獲取知識, WEB文檔文件挖掘以及基於概念索引或Agent技術的資源搜索也應該歸於此類。Web 信息資源類型衆多,目前WWW 信息資源已經成爲網絡信息資源的主體,然而除了大量的人們可以直接從網上抓取、建立索引、實現查詢服務的資源之外,相當一部分信息是隱藏着的數據(如由用戶的提問而動態生成的結果,存在於數據庫系統中的數據,或是某些私人數據)無法被索引,從而無法提供對它們有效的檢索方式,這就迫使我們把這些內容挖掘出來。若從信息資源的表現形式來看,WEB 信息內容是由文本、圖像、音頻、視頻、元數據等種種形式的數據組成的,因而我們所說的基於WEB 內容的挖掘也是一種針對多媒體數據的挖掘。

2)      基於WEB 結構的挖掘

      這一類型的挖掘是從萬維網的整體結構和網頁上的相互鏈接中發現知識的過程,它主要挖掘WEB 潛在的鏈接結構模式。這種思想源於引文分析,即通過分析一個網頁鏈接和被鏈接數量以及對象來建立WEB 自身的鏈接結構模式。這種模式可以用於網頁歸類並且可以由此獲得有關不同網頁間相似度及關聯度的信息。WEB 結構挖掘有助於用戶找到相關主題的權威站點,而且對網絡資源檢索結果的排序有很大意義。

3)      基於WEB 使用的挖掘

       基於WEB 使用的挖掘,也稱爲WEB 日誌挖掘(WebLog Mining)。與前兩種挖掘方式以網上的原始數據爲挖掘對象不同,基於WEB 使用的挖掘面對的是在用戶和網絡交互的過程中抽取出來的第二手數據。這些數據包括:網絡服務器訪問記錄、代理服務器日誌記錄、用戶註冊信息以及用戶訪問網站時的行爲動作等等。WEB 使用挖掘將這些數據一一紀錄到日誌文件中,然後對積累起來的日誌文件進行挖掘,從而瞭解用戶的網絡行爲數據所具有的意義。我們前面所舉的例子正屬於這一種類型。

2.     基於WEB 數據挖掘的特點

1)      什麼是半結構化

      所謂半結構化是相對於結構化和非結構化而言的。我們稱傳統數據庫中的數據爲完全結構化的數據,而同時還存在着一些諸如一本書、一張圖片等完全無結構的非結構化數據。半結構化則是介於兩者之間,具有隱含模式、信息結構不規則、無嚴格類型約束等特點。半結構化數據模式有如下特徵:

n  先有數據,後有模式;

n  半結構化數據的模式是用於描述數據的結構信息,而不是對數據結構進行強制性的約束;

n  半結構化數據的模式是非精確的,它只可能描述數據的一部分結構,也可能根據數據處理的不同階段的視角不同而異;

n  半結構化數據的模式,可能規模很大甚至超過源數據的規模,而且會由於數據的不斷更新而處於動態變化過程中。

2)      WEB 數據的特點

       Web 上的數據最大特點就是半結構化。但是Web 上的數據與傳統的數據庫中的數據不同,傳統的數據庫都有一定的數據模型,可以根據模型來具體描述特定的數據而且按照一定的組織有規律的集中或者分佈存放,結構性很強;而Web 上的數據非常複雜,沒有特定的模型描述每一站點的數據,都各自獨立設計並且數據本身具有自述性和動態可變性,因而Web 上的數據不是強結構性的。但與此同時Web 頁面又是有描述層次的,單個網站也是按照各自的結構構架的,從而具有一定的結構性。因此我們認爲Web 上存在的數據既不是完全結構化的也不是完全非結構化的,而是介於兩者之間,一般稱之爲半結構化數據。

       半結構化是Web 上數據的最大特點,顯然面向Web 的數據挖掘比面向單個數據倉庫或者其他結構化數據集的數據挖掘要複雜得多。

3.     使用基於WEB 數據挖掘能得到什麼

       Web Mining 技術已經應用於解決多方面的問題,比如基於WEB 內容和結構的挖掘極大的幫助了我們從浩瀚的網絡資源中更加快速而準確的獲取所需要的資料,而基於使用的數據挖掘之威力,更是在商業運作上發揮的淋漓盡致,具體表現在:

1)      對網站的修改能有目的有依據穩步的提高用戶滿意度

發現系統性能瓶頸,找到安全漏洞,查看網站流量模式,找到網站最重要的部分,發現用戶的需要和興趣,對需求強烈的地方提供優化,根據用戶訪問模式修改網頁之間的連接,把用戶想要的東西以更快且有效的方式提供給用戶,在正確的地方正確的時間把正確的信息提供給正確的人。

2)      測定投資回報率

     測定廣告和促銷計劃的成功度

     找到最有價值的ISP 和搜索引擎

      測定合作和結盟網站對自身的價值

3)      提供個性化網站

         對大多數WEB 應用來說,讓用戶感到真個網站是完全爲他自己定製的個性化網站,是WEB 站點成功的祕訣。針對不同的用戶完全按照其個人的興趣和愛好(數據挖掘算法得到的用戶訪問模式)向用戶動態的提供要瀏覽的建議自動提供個性化的網站。

4.     基於WEB 使用挖掘中的技術問題

1)      WebUsage Mining 中非技術問題

      在基於使用的挖掘中,出於商業目的考量網站的擁有者或者管理者經常會對網站的某些方面提出一些分析,比如:流量分析(點擊量)、廣告分析、網站出入口分析、訪問路徑分析、用戶來源分析、瀏覽器和平臺分析等等。

      就這些方面作進一步的智能分析,我們可以從中真正與數據挖掘相關的問題:

a)       網頁相關性分析

      哪些網頁具有密切的關係,如果很多人具有a.html-〉b.html-〉c.html 這樣的訪問模式,則我們可以認定a.html和c.html 之間有一定的關係,從而考慮是否在a.html上直接加上c.html的鏈接。

b)       用戶訪問模式分析

       有哪一些網頁用戶只要訪問了其中的一頁,則可以斷定他也要訪問其他的網頁即按不同的用戶訪問模式,把網頁分組得到一個一個的興趣點。哪些用戶所訪問的網頁組成比較類似(具有類似的興趣)即根據用戶行爲的相似性,把用戶按行爲模式分類。

c)       用戶歸類

通過用戶填寫的信息如何把用戶歸入某一特定的類別,然後可對同一類別中的用戶提供相似的服務。

2)      Web Usage Mining 中的技術問題

a)       數據處理

        如何得到分析和數據挖掘所用的數據,主要採用兩種方法,一是直接使用WebServer的Log 文件,二是用網絡監聽的辦法,在數據包中提取出HTTP 請求和應答。最後兩種數據源都要轉換成固定的格式存放在數據庫或數據倉庫內,供統計分析和數據挖掘使用。

b)       統計分析

         在數據庫的基礎上,針對不同的數據運行各種統計函數。

c)       數據挖掘

          數據挖掘技術是實現智能分析得到隱藏在大量繁雜數據內部知識的關鍵。通過對用戶訪問網站的歷史數據(即我們通過數據處理得到的數據)應用各種數據挖掘技術,得到高層知識,提供給用戶作決策支持,或利用這些知識動態生成網頁,爲用戶提供訪問建議。

d)       關聯規則Association Rules

         從服務器會話中發現請求網頁的相關性,可用於優化網站組織,實現網絡代理中的預取功能等。

e)       聚集Clustering

        使用分組(UsageClusters )把具有相似瀏覽模式的用戶分成組,可用於電子商務應用中市場分片(marketsegmentation) 和爲用戶提供個性化服務,而網頁分組(pageclusters )按內容的相似性把網頁分類,可用於搜索引擎和Web 瀏覽助手(Webassistance providers )爲用戶提供推薦鏈接。

f)         歸類Classification

         根據用戶的個人資料,將其歸入某一特定的類,可使用決策樹、naiveBayesian  classifiers、 k-最近鄰居等算法。

g)       序列模式Sequential Patterns

       發現一個session內部的網頁間的時間相關性,可用於預測用戶的訪問趨向而提供建議。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章