Python數據分析:簡單統計量的計算

  1. 這些操作都要確保已經在電腦中安裝好了Anaconda集成庫,如果安裝好後運行出錯誤,可以將原來電腦中的python卸載重新安裝Anaconda,建議安裝時直接將添加環境變量打勾,否則以後得自己添加環境變量,在Pycharm中的編譯器選擇Anaconda安裝文件夾中的python。在Pycharm中新建一個data文件夾用來存放數據文件。在這裏插入圖片描述
  2. 打開Python Console。
  3. 首先在用python讀取數據,需要先輸入import pandas as pd引入pandas包,再輸入df=pd.read_csv("./data/CityData.csv")讀取數據,最後輸入df顯示數據。在這裏插入圖片描述
  4. 分別輸入type(df)type(df["cid"])可以發現兩種數據類型不同。在這裏插入圖片描述在這裏插入圖片描述
  5. 計算平均值:df.mean()df["xid"].mean()在這裏插入圖片描述
  6. 計算中位數:輸入df.median()df["yid"].median在這裏插入圖片描述
  7. 求四分位數:輸入df.quantile(q=0.25)在這裏插入圖片描述
  8. 求衆數:輸入df.mode()df["xid"].mode()
  9. 求標準差:輸入df.std()df["yid"].std()在這裏插入圖片描述
  10. 計算方差:df.var()df["xid"].var()在這裏插入圖片描述
  11. 求和:df.sum()df["xid"].sum()在這裏插入圖片描述
  12. 計算偏態係數:df.skew()df["yid"].skew()在這裏插入圖片描述
  13. 計算峯態係數:df.kurt()df["yid"].kurt()在這裏插入圖片描述
  14. 生成正態分佈函數,pandas無法直接生成,需要先引入scipyimport scipy.stats as ss,再輸入ss.norm,這時生成的是一個正態分佈的對象,我們輸入ss.norm.stats(moments="mvsk")查看一下,mvsk分別代表的是均值、方差、偏態係數、峯態係數。在這裏插入圖片描述
    這時我們可以看到生成四個值,分別對應正態分佈的mvsk分別爲0、1、0、0。
  15. ss.norm.pdf(0.0)表示橫座標爲0時的縱座標的值。ss.norm.ppf(0.9)表示從負無窮累積到返回值時得到的值爲0.9,其中ppf後的值必須在0-1之間。ss.norm.cdf(2)表示從負無窮積分到2時的返回值,ss.norm.rvs(size=10)可以得到10個隨機的符合正態分佈的數字。在這裏插入圖片描述
  16. 類似的,我們可以分別輸入ss.chi2ss.t得到卡方分佈和T分佈。在這裏插入圖片描述
  17. 此外我們還可以進行抽樣,輸入df.sample(n=10)從數據中抽取10個樣本,輸入df.sample(frac=0.1)從數據中抽取10%的樣本。在這裏插入圖片描述
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章