Python高級數據處理與可視化

聚類分析Cluster
(1)聚類分析主要使用kmeans算法,kmeans算法的主要有兩個步驟:①隨機定義K個數據點爲聚類中心,並根據觀測數據到K個數據點的距離將所有的觀測數據分配給這K個聚類中心;②調整K個聚類中心的位置到分配給它們的觀測數據的均值位置。③重複以上兩步,直到聚類中心的位置不再改變,或者滿足給定條件。
(2)在python中使用scipy.cluster.vq給定的kmeans和vq函數可以計算聚類中心,以及觀測數據所屬的聚類中心。

Matplotlib繪圖基礎
(1)Matplotlib繪圖是最著名的python繪圖庫,主要用於二維繪圖。
(2)matplotlib的優點有:①畫圖質量高;②方便快捷的繪圖模塊。(3)繪圖API–pyplot模塊,這個API提供了一套跟matlab很像的繪圖函數。
(4)集成庫–pylab模塊(包含Numpy和pyplot中的常用函數)。

Matplotlib圖像屬性控制
(1)在繪圖時,在繪圖的函數中設置相應的參數可以控制圖像屬性。
(2)繪圖顏色和線條類型和樣式可以更改。
(3)加標題:圖title,橫軸xlabel,縱軸ylabel。
(4)使用figure方法以及其中的figsize和dpi參數修改圖的大小和精度。
(5)可以設置plot方法中的color,linestyle,linewidth,label,marker參數來設置相應的樣式。
(6)通過legend方法來設置圖例,例如設置其中的loc參數指定圖例的位置。
(7)使用subplot方法來在一個圖中畫多個子圖,同時通過figure函數來確定繪圖區域。
(8)也可以通過axes([left, bottom, width, height])方法來畫子圖,參數範圍爲(0, 1),這樣可以話圖中圖。

pandas作圖
(1)pandas整合matplotlib的相關功能可以實現基於Series和DataFrame的某些繪圖功能。
(2)pandas可以直接對Series和DataFrame進行繪圖,也就是說Series和DataFrame對象中含有plot方法。然後可以通過pyplot中的方法來設置由pandas繪出來圖的其它參數。
(3)pandas控制圖像形式,在plot方法中設置kind參數可以設置線條類型,還能通過color參數設置線條顏色,通過marker設置線條類型樣式,通過label參數設置圖例。還能畫出概率分佈圖!

數據存取
(1)csv格式數據存取,使用to_csv方法可以將數據寫到指定路徑名字的csv文件。相反,從csv文件讀使用read_csv方法。
(2)csv其實就是“逗號分割值”的三個英文的縮寫,表明了數據在csv文件中的存儲形式。
(3)xls格式數據存取,使用to_excel函數存儲,使用read_excel函數讀取。在存儲時還能通過sheet_name參數設置表格名。

Python的理工類應用
(1)簡單的三角函數計算。
(2)一組數據的傅里葉變換,使用到scipy中的fft方法。
(3)例如,Biopython用於生物學。

Python的人文社科類應用
(1)自然語言處理。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章