Web數據挖掘

轉載http://blogger.org.cn/blog/more.asp?name=xueflhg&id=5574

摘要:

隨着Internet/Web技術的快速普及和迅猛發展，使各種信息可以以非常低的成本在網絡上獲得，如何在這個全球最大的數據集合中發現有用信息成爲數據挖掘研究的熱點。本文概要介紹了Web數據挖掘在三個研究領域的研究現狀及發展。

關鍵詞：數據挖掘；Web挖掘；

1．Web挖掘概述

隨着以數據庫、數據倉庫等數據倉儲技術爲基礎的信息系統在各行各業的應用，使海量數據不斷產生。隨之而來的問題是如此多的數據讓人難以消化，無法從表面上看出他們所蘊涵的有用信息，更不用說有效地指導進一步的工作。如何從大量的數據中找到真正有用的信息成爲人們關注的焦點，數據挖掘技術也正是伴隨着這種需求從研究走向應用。

近年來，隨着Internet/Web技術的快速普及和迅猛發展，使各種信息可以以非常低的成本在網絡上獲得，由於Internet/WWW在全球互連互通，可以從中取得的數據量難以計算，而且Internet/WWW的發展趨勢繼續看好，特別是電子商務的蓬勃發展爲網絡應用提供了強大支持，如何在WWW這個全球最大的數據集合中發現有用信息無疑將成爲數據挖掘研究的熱點。

Web挖掘指使用數據挖掘技術在WWW數據中發現潛在的、有用的模式或信息。Web挖掘研究覆蓋了多個研究領域，包括數據庫技術、信息獲取技術、統計學、人工智能中的機器學習和神經網絡等。

2．Web挖掘流程

與傳統數據和數據倉庫相比，Web上的信息是非結構化或半結構化的、動態的、並且是容易造成混淆的，所以很難直接以Web網頁上的數據進行數據挖掘，而必須經過必要的數據處理。典型Web挖掘的處理流程如下[3]：

1．查找資源：任務是從目標Web文檔中得到數據，值得注意的是有時信息資源不僅限於在線Web文檔，還包括電子郵件、電子文檔、新聞組，或者網站的日誌數據甚至是通過Web形成的交易數據庫中的數據。

2．信息選擇和預處理：任務是從取得的Web資源中剔除無用信息和將信息進行必要的整理。例如從Web文檔中自動去除廣告連接、去除多餘格式標記、自動識別段落或者字段並將數據組織成規整的邏輯形式甚至是關係表。

3．模式發現：自動進行模式發現。可以在同一個站點內部或在多個站點之間進行。

4．模式分析：驗證、解釋上一步驟產生的模式。可以是機器自動完成，也可以是與分析人員進行交互來完成。

Web挖掘作爲一個完整的技術體系，在進行挖掘之前的信息獲得IR（Information Retrieval）和信息抽取IE(Information Extraction)相當重要。信息獲得（IR）的目的在於找到相關Web文檔，它只是把文檔中的數據看成未經排序的詞組的集合，而信息抽取(IE)的目的在於從文檔中找到需要的數據項目，它對文檔的結構合表達的含義感興趣,它得一個重要任務就是對數據進行組織整理並適當建立索引。

信息獲得（IR）和信息抽取(IE)技術的研究已近有很長時間，隨着Web技術的發展，基於Web技術的IR、IE得到了更多的重視。由於Web 數據量非常大，而且可能動態變化，用原來手工方式進行信息收集早已經力不從心，目前的研究方向是用自動化、半自動化的方法在Web上進行IR和IE。在Web環境下既要處理非結構化文檔，又要處理半結構化的數據，最近幾年在這兩方面都有相應的研究成果和具體應用，特別是在大型搜索引擎中得到了很好的應用。

3．Web挖掘分類及各自的研究現狀及發展

根據對Web數據的感興趣程度不同，Web挖掘一般可以分爲三類：Web內容挖掘（Web Content mining）、 Web結構挖掘（ Web structure mining）、 Web 用法挖掘（Web usage Mining）

3．1、Web內容挖掘：

指從Web內容/數據/文檔中發現有用信息，Web上的信息五花八門，傳統的Internet由各種類型的服務和數據源組成，包括WWW、FTP、Telnet等，現在有更多的數據和端口可以使用，比如政府信息服務、數字圖書館、電子商務數據，以及其他各種通過Web可以訪問的數據庫。Web內容挖掘的對象包括文本、圖象、音頻、視頻、多媒體和其他各種類型的數據。其中針對無結構化文本進行的Web挖掘被歸類到基於文本的知識發現（KDT）領域，也稱文本數據挖掘或文本挖掘，是Web挖掘中比較重要的技術領域，也引起了許多研究者的關注。最近在Web多媒體數據挖掘方面的研究成爲另一個熱點。

Web內容挖掘一般從兩個不同的觀點來進行研究。從資源查找（IR）的觀點來看，Web內容挖掘的任務是從用戶的角度出發，怎樣提高信息質量和幫助用戶過濾信息。而從DB的角度講Web內容挖掘的任務主要是試圖對Web上的數據進行集成、建模，以支持對Web數據的複雜查詢。

3．1．1從資源查找（Information Retrival）的觀點挖掘非結構化文檔：

非結構化文檔主要指Web上的自由文本，包括小說、新聞等。在這方面的研究相對比較多一些，大部分研究都是建立在詞彙袋（bag of words）或稱向量表示法（vector representation）的基礎上，這種方法將單個的詞彙看成文檔集合中的屬性，只從統計的角度將詞彙孤立地看待而忽略該詞彙出現的位置和上下文環境。屬性可以是布爾型，根據詞彙是否在文檔中出現而定，也可以有頻度，即該詞彙在文檔中的出現頻率。這種方法可以擴展爲選擇終結符、標點符號、不常用詞彙的屬性作爲考察集合。詞彙袋方法的一個弊端是自由文本中的數據豐富，詞彙量非常大，處理起來很困難，爲解決這個問題人們做了相應的研究，採取了不同技術，如信息增益，交叉熵、差異比等，其目的都是爲了減少屬性。另外，一個比較有意義的方法是潛在語義索引（Latent Semantic Indexing），它通過分析不同文檔中相同主題的共享詞彙，找到他們共同的根，用這個公共的根代替所有詞彙，以此來減少維空間。例如：“informing”、“information”、“informer”、“informed”可以用他們的根“inform”來表示，這樣可以減少屬性集合的規模。

其他的屬性表示法還有詞彙在文檔中的出現位置、層次關係、使用短語、使用術語、命名實體等，目前還沒有研究表明一種表示法明顯優於另一種。

用資源查找（Information Retrival）的觀點挖掘半結構化文檔：

與非結構化數據相比，Web上的半結構化文檔挖掘指在加入了HTML、超連接等附加結構的信息上進行挖掘，其應用包括超連接文本的分類、聚類、發現文檔之間的關係、提出半結構化文檔中的模式和規則等。

3．1．2從數據庫（Database）的觀點挖掘非結構化文檔：

數據庫技術應用於Web挖掘主要是爲了解決Web信息的管理和查詢問題。這些問題可以分爲三類：Web信息的建模和查詢；信息抽取與集成；Web站點建構和重構。

從數據庫的觀點進行Web內容挖掘主要是試圖建立Web站點的數據模型並加以集成，以支持複雜查詢，而不止是簡單的基於關鍵詞的搜索。這要通過找到Web文檔的模式、建立Web數據倉庫或Web知識庫或虛擬數據庫來實現。相關研究主要是基於半結構化數據進行的。

數據庫觀點主要利用OEM(Object Exchange Model)模型將半結構化數據表示成標識圖。OEM中的每個對象都有對象標識（OID）和值，值可以是原子類型，如整型、字符串型、gif、html等，也可以是一個複合類型，以對象引用集合的形式表示。由於Web數據量非常龐大，從應用的角度考慮，很多研究只處理辦結構化數據的一個常用自集。一些有意義的應用是建立多層數據庫（MLDB），每一層是它下面層次的概化，這樣就可以進行一些特殊的查詢和信息處理。對於在半結構化數據上的查詢語言研究也得到了人們的重視並做了專題研究。

由於在數據庫觀點下數據的表示方法比較特殊，其中包含了關係層次和圖形化的數據，所以大部分建立在扁平數據集合之上的數據挖掘方法不能直接使用，目前已經有人針對多層數據庫挖掘算法進行研究。

3．2、Web結構挖掘：

Web結構挖掘的對象是Web本身的超連接，即對Web文檔的結構進行挖掘。對於給定的Web文檔集合，應該能夠通過算法發現他們之間連接情況的有用信息，文檔之間的超連接反映了文檔之間的包含、引用或者從屬關係，引用文檔對被引用文檔的說明往往更客觀、更概括、更準確。

Web結構挖掘在一定程度上得益於社會網絡和引用分析的研究。把網頁之間的關係分爲incoming連接和outgoing連接，運用引用分析方法找到同一網站內部以及不同網站之間的連接關係。在Web結構挖掘領域最著名的算法是HITS算法和PageRank算法。他們的共同點是使用一定方法計算Web頁面之間超連接的質量，從而得到頁面的權重。著名的Clever和Google搜索引擎就採用了該類算法。

此外，Web結構挖掘另一個嘗試是在Web數據倉庫環境下的挖掘，包括通過檢查同一臺服務器上的本地連接衡量Web結構挖掘Web站點的完全性，在不同的Web數據倉庫中檢查副本以幫助定位鏡像站點，通過發現針對某一特定領域超連接的層次屬性去探索信息流動如何影響Web站點的設計。

3．3、Web用法挖掘（Web usage Mining）：

即Web使用記錄挖掘，在新興的電子商務領域有重要意義，它通過挖掘相關的Web日誌記錄，來發現用戶訪問Web頁面的模式，通過分析日誌記錄中的規律，可以識別用戶的忠實度、喜好、滿意度，可以發現潛在用戶，增強站點的服務競爭力。Web使用記錄數據除了服務器的日誌記錄外還包括代理服務器日誌、瀏覽器端日誌、註冊信息、用戶會話信息、交易信息、Cookie中的信息、用戶查詢、鼠標點擊流等一切用戶與站點之間可能的交互記錄。可見Web使用記錄的數據量是非常巨大的，而且數據類型也相當豐富。根據對數據源的不同處理方法，Web 用法挖掘可以分爲兩類，一類是將Web使用記錄的數據轉換並傳遞進傳統的關係表裏，再使用數據挖掘算法對關係表中的數據進行常規挖掘；另一類是將Web 使用記錄的數據直接預處理再進行挖掘。Web 用法挖掘中的一個有趣的問題是在多個用戶使用同一個代理服務器的環境下如何標識某個用戶，如何識別屬於該用戶的會話和使用記錄，這個問題看起來不大，但卻在很大程度上影響着挖掘質量，所以有人專門在這方面進行了研究。通常來講，經典的數據挖掘算法都可以直接用到Web 用法挖掘上來，但爲了提高挖掘質量，研究人員在擴展算法上進行了努力，包括複合關聯規則算法、改進的序列發現算法等。

在[4]中，根據數據來源、數據類型、數據集合中的用戶數量、數據集合中的服務器數量等將Web 用法挖掘分爲五類：

●個性挖掘：針對單個用戶的使用記錄對該用戶進行建模，結合該用戶基本信息分析他的使用習慣、個人喜好，目的是在電子商務環境下爲該用戶提供與衆不同的個性化服務。

●系統改進：Web服務（數據庫、網絡等）的性能和其他服務質量是衡量用戶滿意度的關鍵指標，Web 用法挖掘可以通過用戶的擁塞記錄發現站點的性能瓶頸，以提示站點管理者改進Web緩存策略、網絡傳輸策略、流量負載平衡機制和數據的分佈策略。此外，可以通過分析網絡的非法入侵數據找到系統弱點，提高站點安全性，這在電子商務環境下尤爲重要。

●站點修改：站點的結構和內容是吸引用戶的關鍵。Web 用法挖掘通過挖掘用戶的行爲記錄和反饋情況爲站點設計者提供改進的依，比如頁面連接情況應如何組織、那些頁面應能夠直接訪問等。

●智能商務：用戶怎樣使用Web站點的信息無疑是電子商務銷售商關心的重點，用戶一次訪問的週期可分爲被吸引、駐留、購買和離開四個步驟，Web用法挖掘可以通過分析用戶點擊流等Web日誌信息挖掘用戶行爲的動機，以幫助銷售商合理安排銷售策略。

●Web特徵描述：這類研究跟關注這樣通過用戶對站點的訪問情況統計各個用戶在頁面上的交互情況，對用戶訪問情況進行特徵描述。

4．結束語

儘管Web挖掘的形式和研究方向層出不窮，但我認爲隨着電子商務的興起和迅猛發展，未來Web挖掘的一個重要應用方向將是電子商務系統。而與電子商務關係最爲密切的是用法挖掘（Usage Mining），也就是說在這個領域將會持續得到更多的重視。另外，在搜索引擎的研究方面，結構挖掘的研究已經相對成熟，基於文本的內容挖掘也已經有許多研究，下一步將會有更多的研究者把多媒體挖掘最爲研究方向。

參考文獻：

[1] Jiawei Han , Micheline Kamber. DataMining: Concept and Techniques. Morgan Kaufmann Publishers,Inc.2001.

[2] http://www.billinmon.com

[3] R. Kosla and H. Blockeel, “Web mining research a survey,” SIG KDD Explorations, vol. 2, pp. 1–15, July 2000.

[4] J. Srivastava, R. Cooley, M. Deshpande and P. Tan, Web usage mining:discovery and applications of usage patterns from web data. SIGKDDExplorations, 1(2):12–23, 2000.

[5].S.K.Madria,S.S.Bhowmick,W.K.Ng,and E.P.Lim.Research issues in web data mining.In Proceedings of Data Warehousing and Knowledge Discovery,First International Conference,DaWaK’99,pages 303-312,1999.

[6] Pal S.K., Talwar V., and Mitra P., Web Mining in SoftComputing Framework: Relevance, State of he Art andFuture Directions, IEEE Transactions on NeuralNetworks, Volume: 13, Issue: 5, pp.1163 –1177, 2002.

[7] 陳莉，焦李成.Internet/Web數據挖掘研究現狀及最新進展.西安電子科技大學學報（自然科學版）.2001年2月第28卷第1期.

寫畢業論文時遇到的幾個不錯的網站

關於java函數傳值還是傳引用的經典問題

Web數據挖掘

抽象類與接口的區別

classpath詳解和jdk學習筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結