python數據分析與數據挖掘numpy與pandas模塊的使用(2)

一:numpy相關的操作

1數組的創建:numpy.array(  [ ["元素1","元素2"],["元素1","元素2"],["元素1","元素2"] ]  )


  生成數組  arange、zeros、ones


bool類型:


(1)矢量化運算:相同大小的數組鍵間的運算應用在元素上


(2)矢量與標量運算:將標量“廣播”到各個元素


2數組的排序:sort方法


3取最大值與最小值:y1=y.max()      y2=y.min()


4一維數組的切片與索引:按照下標切開,取某個片段之間的元素   數組[ 起始下標 :  最終下標+1]



5.多維數組的索引與切片:

arr[ r1 : r2, c1 : c2]   :    r1,r2代表行的切片。c1,c2代表列的切片。

arr[1,1]等價於arr[1][1]



改變數組的維度:先攤開展平,再設置維度。



6.條件索引:布爾值多維數組,arr[condition],condition可以是多個條件組合,注意多個條件組合要用&  |  而不是and or

(1)單個條件: 首先  隨機生成3行3列的[0,1)之間的浮點數。


(2)多個條件:


7:轉置:transpose 高維數組轉置要指定維度編號(0,1,2.....)


8:通用函數:元素級運算。

ceil       向上最接近的整數

floor    向下最接近的整數

rint      四捨五入

isnan    判斷元素是否爲NaN(not a number)

mutiply 元素相乘

divide   元素相除


9:矢量版本的三元表達式:

     numpy.where(condition,x,y)   :     x if condition else y


10:常用的統計方法:注意多維的話要指定統計的維度,否則默認全部維度上做統計。(axis=0 按列,axis=1,按行)

mean:

sum:

max:

min:

std:

var:

argmax:

argmin:

cumsum:

cumprod:

all:全部滿足條件

any:至少滿足條件

unique:找到唯一的值並返回排序結果


二:pandas相關操作

1  Series:指的是某一串數字,有順序的。一行或者一列    。默認index索引(0開始)


2 DataFrame :數據類似於表格

3字典的方式創建數據 


4頭部數據  e.head(),默認取前5行

5尾部數據  e.tail(),默認取後5行


6 e.describe()按列統計。

count這列的個數,mean平均數,std標準差,min這一列中的最小值,max這一列的最大值。

%對應的數字代表每一列的分位數。


7 數據的轉置(行變列,列變行)e.T




發佈了45 篇原創文章 · 獲贊 13 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章