數據挖掘導論可視化部分總結

三個主題:彙總統計、可視化技術、聯機分析處理OLAP

1-彙總統計的幾個值:
* 頻率
* 衆數
* 百分位數:顧名思義,有序數據集合的百分位點的數值
* 均值
* 中位數
* 極差:數據的最大和最小的差
* 方差

        使用可視化技術可以快速地吸取大量可視化信息,有時候,使用非可視化工具來分析,以可視化來描述結果,並將結果交與領域專家進行快速排查,可以直接聚焦到重要模式上。

2-可視化數據的技術:
* 莖葉圖:針對少量數據,來觀測一維整型或連續數據,簡單地說就是一種形式的直方圖,例如,數據是一組2位數的整型,高位數字爲莖,低位數字爲葉,在畫直方圖時,縱軸爲莖,橫軸爲葉,表現爲橫向的直方圖。
* 直方圖:太熟悉了,不說了
* 二維直方圖:好吧,其實就是加了一條屬性,將直方圖顯示由長方形變成長方體,更容易發現兩個屬性同時出現的模式,但是也因爲柱體遮擋,觀察不便。
* 盒狀圖:感覺是直方圖的變形啊,直方圖是將數據的多個區間用多個長方形展示,盒狀圖是將數據的幾個重要值用一個長方形展示,這幾個值分別是(10%、25%、50%、75%、90%百分位數)。
* 餅圖:也很熟悉吧,不說
* 散佈圖:以二維簡單說就是在一個平面上根據兩個屬性來描點,以此來觀察兩個屬性的相關程度和兩個屬性能否將數據分成兩個或多個類。
* 等高線圖:學過地理的都知道
* 曲面圖:學過高數的都知道
* 矢量場圖:學過物理的都知道
* 星形圖:一個點引生出幾條線,一個屬性一條線,然後將線的頂點連線,哈哈,一個星星(尷尬),可以用於快速比較具有少量數據的對象。

3-可視化原則(搬運工):
* 理解:圖形能否透徹地理解變量之間的關係。
* 清晰性:最重要的元素或關係在視覺上突出嗎?
* 一致性:與以前解釋圖形的標記、符號、特徵一致嗎?(自成一派好像也沒什麼關係)
* 有效性:用儘可能簡單地圖形來描繪複雜關係的能力,圖形元素的使用經濟嗎?
* 必要性:與文本或者表格相比,圖形的表現是必要的嗎?
* 真實性:圖形表示真實值的能力,使用圖形可以準確的定標定位嗎?

4-多維數組分析數據:

        通常數據的表示都是用表來實現的,多維數組分析數據,這裏的一個維解釋爲數據的一條屬性,對屬性值進行量化,使得屬性值可以充當數組的下標,屬性值的個數就是維的大小,原先表格的一行數據在多維數組中則轉化爲一個單元。

        數據的多維表示,連同所有可能的總和(聚集)稱作數據立方體(data cube),這是定義,如time屬性可能有日-周-月-季年的從底層到高層的概念分層,將數據從低層彙總到高層可以有效減少分析數據的規模,而不損失感興趣的數據信息,數據立方體對維的數量和各個維的大小不做要求,

5-分析多維數據的方法:
* 維歸約:維=屬性,維歸約,減少分析的屬性個數,大部分數據挖掘算法要求維的個數要少,而且如果維的個數過多容易引起維災難,使得許多分類和聚類算法準確率降低,質量下降.
* 基於PCA的維歸約:PCA(principle components analysis)主成分分析,也叫K-L方法,對於n維數據,搜索k個最能代表數據的n爲正交向量,將高維數據投影到低維空間。因爲篩選出了主要成分,所以可以很好的進行稀疏數據的處理。
–分析的基本步驟:
1-規範化輸入的數據:所有屬性落在相同的區間內;
2-計算k個標準正交向量,即主成分;
3-每個輸入數據的向量都是這k個主成分向量的線性組合;
4-主成分按照重要程度降序排序。
* 基於聚集的維歸約:就是將一個維的數據彙總成一個數據,以此來降維。
* 轉軸:(pivoting)是指指定兩個維之外的所有維進行聚集
* 切片:(slicing)很好理解,指定一個維或者多個維的特定值,從原數據取出一組數據。
* 切塊:(dicing)很好理解,指定一個維或者多個維的一個區間,從原數據取出一組數據。
* 上卷:(roll up)將數據從低層次彙總到高層次進行分析。
* 下鑽:(drill down)將數據從高層次分解到低層次進行分析。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章