數據挖掘 多維分析技術理論基礎知識

1.數據倉庫 一種多個異種數據源在單個站點以統一的模式組織的存儲,以支持管理決策。
2.OLAP技術 一種分析技術,具有彙總合併和聚集功能,以及從不同的角度觀察信息的能力。 但對於深層次


的分析, 如數據分類 聚類 和數據隨時間變化的特徵,需要藉助其他分析工具。
3. 知識發現過程步驟, 數據清理 數據集成 數據選擇 數據變換 數據挖掘 模式評估 知識表示
4.數據挖掘任務 一般分爲兩類 描述 和 預測
5.聚類分析 與分類和預測 不同 聚類 分析數據對象 而不考慮已知的類標記。對象 根據 最大化類內的相似


性,最小化類間的相似性的原則進行聚類或分組
6 孤立點分析 數據庫 可能包含一些數據對象,他們與一般的行爲和模型不一致。然而,在一些應用中,罕


見的事件可能更有研究價值。
7.演變分析 描述行爲隨時間變化的對象的規律或趨勢。
8.性能問題 數據挖掘算法的有效性,可伸縮性和並行處理。  許多數據庫的大容量,數據的廣泛分佈和一些


數據算法的計算複雜性 是促使開發並行和分佈式數據挖掘算法的因素。
9.多維數據庫模式 星型模式 雪花型模式 星型模式 星型模式包括一個大的包含大批數據和不冗餘的中心表 


一組小的附屬表維表。 雪花型模式 相比星型模式更加易於維護,並且節省存儲空間,但是執行查詢需要更


多的連接操作,所以,可能會降低瀏覽的性能。


10.多維數據模型上,數據組織成多維,每維包含由概念分層定義的多個抽象層。這種組織爲用戶從不同角度


觀察數據提供了靈活性。
11.多維操作 rollup上卷 通過一個維的概念分層向上攀升或者通過維歸約,在數據立方體上進行聚集。
下鑽 drilldown 它由不太詳細的數據 到更詳細的數據。 下鑽可以通過沿維的概念分層向下或引入新的維來


實現。切片 slice 在給定的數據立方體的一個維上進行選擇,切塊dice 通過對兩個或多個維執行選擇。


12 數據倉庫 的設計過程。自頂向下 由總體設計和規劃開始。當技術成熟,對必須解決的商務問題清楚並已


很好理解時,這種方法是有用的。 自底向上 以實驗和原型開始 這樣可以以相當低的代價前進 


13.olap 服務器 類型 rolap molap holap 
rolap 是一種中間服務器 介於關係的後端服務器和客戶前端工具之間。它們使用關係或擴充關係DBMS 存放


並管理數據倉庫,而olap 中間件支持其餘部分。 相比其他分類,rolap 更具有可伸縮性。


molap 服務器通過基於數據的多維存儲引擎,支持數據的多維視圖。將多維視圖直接映射到數據立方體數組


結構上。essbase   使用數據立方體的優點 是能夠對預計算的彙總數據快速索引。 但是這樣 引起的問題 


是  如果數據集是稀疏的 ,那麼存儲利用率可能很低。這種情況下,應當使用稀疏矩陣壓縮技術。多數服務


器採用兩級存儲,來處理稀疏和稠密數據集,稠密子方不變 作爲數組結構存儲 


Holap將大量詳細數據存放在關係型數據庫中 而聚集保持在分離的MOLAP存儲中。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章