挖掘對象、空間、多媒體、文本和Web數據

 

 

1.複雜數據對象的挖掘處理

答:這裏的對象是指複雜但相對結構化的數據對象,這些數據對象不能簡單的用數據關係來表示,大多數擁有這些數據的應用基本上是面向對象的。這個時候,對數據對象的挖掘就是對複雜結構化的數據對象進行處理。挖掘複雜數據對象的任務是建立複雜對象的多維數據倉庫,做聯機處理分析,針對多維數據倉庫做有效、可伸縮的數據挖掘。結構化多維數據挖掘處理遵循通用的挖掘過程,可以採用一般的數據規約方法。

 

2.空間數據的挖掘處理

答:空間數據的特點是存在大量與空間相關的數據,包含拓撲或者距離信息,對地理、空間方面有幫助。空間數據挖掘是指提取空間數據庫中非顯式存儲的知識、空間聯繫或其他有趣的模式。空間數據倉庫是面向主題的、集成的、時變的、非易失性的空間數據和非空間數據的集合,用於支持空間數據挖掘和與空間數據相關的決策過程。

由於空間數據信息由空間信息和非空間信息兩部分組成,,所以針對空間信息要採用專門的空間維度來保存,做空間信息的挖掘;針對非空間信息要在空間維度的基礎上進行非空間信息的處理。空間信息的常用數據挖掘方法有空間數據立方體處理方法和空間聚類方法。

 

3.多媒體數據的挖掘處理

答:多媒體數據信息是多類信息的數據集合,這些信息數據集合的信息類型有視頻、圖像、圖形、聲音、文本、文檔、超文本數據等。對多媒體數據的數據挖掘就是針對各種信息類型進行數據挖掘,可以是組合信息的索引,也可以是信息內容。多媒體信息的數據挖掘是一種複合型的數據挖掘,可能同時要使用多種數據挖掘的方法,分別處理圖像、文本、聲音、空間等。

 

4.文本數據的挖掘處理

答:文本信息是有各種數據文檔組成的,與其他類型的數據不同,文本數據的數據挖掘任務重點關心文本的信息檢索。一般檢索方法分爲兩類:文檔選擇問題和文檔秩評定問題。文檔選擇問題看作是對選擇相關文檔指定約束條件,類似於給定足夠的選擇項約束集合,然後根據約束集合中的條件對文檔進行篩選,非集合內的條件不被接受。文檔秩評定方法使用查詢,按相關次序評定所有文檔的秩,通過秩的評定來響應客戶的查詢。確定了這兩種方法需要解決的主要問題,對文檔選擇問題來說:數據預處理、規約、設定標籤、索引、約束條件集合是要重點考慮的因素;對於文檔秩評定問題的來說:約束條件的權值設定、數據的預處理、規約、文檔組成部分的信息挖掘等是要重點考察的因素。

 

5.Web信息的數據挖掘

答:Web信息網絡作爲現在一個巨大並告訴增長的信息庫,是一個數據挖掘的重要場所。由於Web

本身的結構特點和信息內容重點集中於某些結構上,這有助於信息挖掘。但是這種結構是彈性很大的,有時甚至是動態的,在數據挖掘的過程中要考慮這些特點。常規的數據挖掘方法是仿照文本的數據挖掘方法中文檔秩評定問題,對Web信息設定一些權重標準,如高引用的頁面、時間、內容、搜素條件的詞彙複合等,最後返回一組經過秩評定的Web信息頁面。

 

6.數據挖掘的理論基礎

答:數據規約、數據壓縮、模式發現、概率論、微觀經濟學觀點、歸納數據庫等。

 

7.可以應用數據挖掘的前提條件

答:必須有足夠的數據是最基礎的前提,不論這些數據是孤立的還是有序一致的。有了數據也不一定要應用數據挖掘,如果要挖掘的信息是基礎數據所不具備的信息,這也是枉然。當數據足夠多,需要獲取的信息可以從數據中獲得支持,還要考慮獲取數據的成本問題,就是構建數據倉庫、數據挖掘、聯機數據分析、數據展示所消耗的成本問題。如果這些前提條件都滿足,就可以進行數據挖掘。因爲整個挖掘過程是需要消耗時間成本的,對響應時間要求沒有那麼嚴格,所以數據挖掘最好是採用存量異步處理+增量異步處理結合的方式進行,還要考慮數據挖掘任務的緊急性和重要性排序。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章