- 這些操作都要確保已經在電腦中安裝好了Anaconda集成庫,如果安裝好後運行出錯誤,可以將原來電腦中的python卸載重新安裝Anaconda,建議安裝時直接將添加環境變量打勾,否則以後得自己添加環境變量,在Pycharm中的編譯器選擇Anaconda安裝文件夾中的python。在Pycharm中新建一個data文件夾用來存放數據文件。
- 打開Python Console。
- 首先在用python讀取數據,需要先輸入
import pandas as pd
引入pandas包,再輸入df=pd.read_csv("./data/CityData.csv")
讀取數據,最後輸入df
顯示數據。 - 分別輸入
type(df)
和type(df["cid"])
可以發現兩種數據類型不同。 - 計算平均值:
df.mean()
或df["xid"].mean()
- 計算中位數:輸入
df.median()
或df["yid"].median
- 求四分位數:輸入
df.quantile(q=0.25)
- 求衆數:輸入
df.mode()
或df["xid"].mode()
- 求標準差:輸入
df.std()
或df["yid"].std()
- 計算方差:
df.var()
或df["xid"].var()
- 求和:
df.sum()
或df["xid"].sum()
- 計算偏態係數:
df.skew()
或df["yid"].skew()
- 計算峯態係數:
df.kurt()
或df["yid"].kurt()
- 生成正態分佈函數,pandas無法直接生成,需要先引入scipy
import scipy.stats as ss
,再輸入ss.norm
,這時生成的是一個正態分佈的對象,我們輸入ss.norm.stats(moments="mvsk")
查看一下,mvsk分別代表的是均值、方差、偏態係數、峯態係數。
這時我們可以看到生成四個值,分別對應正態分佈的mvsk分別爲0、1、0、0。 ss.norm.pdf(0.0)
表示橫座標爲0時的縱座標的值。ss.norm.ppf(0.9)
表示從負無窮累積到返回值時得到的值爲0.9,其中ppf後的值必須在0-1之間。ss.norm.cdf(2)
表示從負無窮積分到2時的返回值,ss.norm.rvs(size=10)
可以得到10個隨機的符合正態分佈的數字。- 類似的,我們可以分別輸入
ss.chi2
和ss.t
得到卡方分佈和T分佈。 - 此外我們還可以進行抽樣,輸入
df.sample(n=10)
從數據中抽取10個樣本,輸入df.sample(frac=0.1)
從數據中抽取10%的樣本。
Python數據分析:簡單統計量的計算
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.