pandas數據分析讀書筆記(一)

Series對象,如何生成Series對象。

Datadf對象,如何生成Datadf

df.Head()函數,df.tail()函數,df.loc()函數(通過index位置獲取數據)

Del df[‘eastern’],del函數用來刪除某列.

df.T,轉置函數

df.values,返回Datadf的數據

df.index,返回Datadf的索引

df.reindex(),用於修改索引

df.drop(axis = 0),用於刪除某行或者某列,默認的參數是axis = 0,默認刪除行,當axis=1時,刪除列,或者axis = ‘columns’也可以。這個函數是返回一個刪除的對象,不會修改原有的數據,當傳入參數inplace = True時,則原地修改對象,不會返回新的對象。

df.loc(),使用index標籤獲取數據

df.iloc(),通過整數索引獲取數據

Np.abs(df),可以將numpy的函數用於操作pandas對象

df.apply(f),函數f,作用於df的每一列上

df.applymap(f),函數f,作用於df的每一個元素上

df.sort_index(axis = 0, ascending = True),對某個軸上的索引進行排序,默認爲axis = 0,即行縮影,可以設置爲axis = 1,即對列索引進行排序。Ascending默認爲True的,即升序排列,也可以設置ascending = False,即降序排列

df.sort_values(),對值進行排列,缺失值會放在Series的末尾,by參數,是根據一個或多個列中的值進行排序,如果是要根據多個列進行排序,需要傳入列表

df.index.is_unique,這是個屬性,可以看索引的值是否是唯一的

df.sum(axis = 0),該方法返回一個含有列的和的Series,默認爲axis = 0,計算每列的和,也可以將參數修改爲axis = 1,會按照行進行求和運算

df.mean(axis = 0’, skipna =True),返回一個含有列的平均值的Series,跳過空值。

df.idmax(),返回每列最大值的索引

df.idmin(),返回每列最小值的索引

df.cumsum(),每列累計和

df.describe(),一次性產生多個彙總統計,包括總數,平均值,最小值,最大值,分位數等等

另外還有:count()、max()、min()、argmax()/返回最大值的整數索引、argmin()/返回最小值的整數索引、quantile/計算分位數0到1、sum、mean、median、mad、var、std、skew、kuit、cumsum、cummin、cummax/樣本值的累計最大值和最小值、cumprod累計積、pct_change計算百分比變化(計算股票收益率)

Ser1.corr(Ser2),計算兩個Series重疊的,非NA的,按索引對齊的相關係統

Df.corr(),返回這個dataframe的相關係統矩陣

Df.cov(),返回這個dataframe的協方差矩陣

Df.corrwith(),當傳入一個Series時,則會計算dataframe的所有列與這個Series的相關係數,當傳入的是一個DataFrame時,則會按照列名匹配然後計算相關係數。

Ser.unique(),返回Series中的唯一值數組

Ser.value_counts(),用於計算一個Series中各值出現的頻率

pd.value_counts(Ser.values),這個value_counts還是一個頂級的方法

Ser.isin(),用於判斷Series中的值是否在一個列表中

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章