python數據描述

np.mean(jd_stock['opening_price'])
# 加權算術平均數
np.average(jd_stock['opening_price'],weights=jd_stock['volume'])
jddf['opening_price'].mean()
# 截尾均值【去掉最大N個和最小的N個值之後的均值】
from scipy import stats
stats.tmean(jd_stock['opening_price'],(25,30))
# 縮尾均值
stats.matats.winsorize(jd_stock['opening_price'],(0.05,0.05)).mean()
#幾何平均&調和平均
stats.gmean(jd_stock['opening_price'])
stats.hmean(jd_stock['opening_price'])

中位數

np.median(jd_stock['opening_price'])
jddf['opening_price'].median()
stats.nanmedian(jd_stock['opening_price'])

分位數

#計算指定分位點的分位數
stats.scoreatpercentile(jd_stock['opening_price'],[10,20,25,50,75,100])
#計算指定數值所處的分位點
stats.percentileofscore(jd_stock['opening_price'],30.27)
#也可以用stats.mstats.mquantiles計算

衆數

stats.mode(jd_stock['opening_price'])
>返回衆數和衆數出現的次數
pandas對象也可以用mode方法求衆數

離散程度

極差

np.max(jd_stock['opening_price'])-np.min(jd_stock['opening_price'])
jddf['opening_price'].max()-jddf['opening_price'].min()

四分位差

stats.scoreatpercentile(jddf['opening_price'],75)-
stats.scoreatpercentile(jddf['opening_price'],25)

方差和標準差

np.var(jd_stock['opening_price'],ddof=1)
# ddof設置爲1時，表示計算自由度爲n-1的樣本修正方差。ddof默認0
jd_stock['opening_price'].var(ddof=1)
np.std(jd_stock['opening_price'],ddof=1)
jd_stock['opening_price'].std(ddof=1)
stats.tvar(jddf['opening_price'])
stats.nanstd(jddf['opening_price'])

協方差

np.cov(jd_stock['opening_price'],jd_stock['closing_price'],bias=1,ddof=1)
# bias=1表示結果需要除以N否則只計算分子部分
# 返回結果爲4*4矩陣，對角線爲變量1，2的方差

變異係數（標準差係數、離散係數）

cv=標準差/均值

相對指標：對不同總體或樣本數據的離散程度作比較

分佈形狀

偏度(數據分佈對稱性的測度）

左偏【左邊尾巴】，偏度小於0

jddf['opening_price'].skew()

峯度（數據分佈曲線頂端陡峭或扁平程度的指標）

黑線服從尖峯（leptokurtic）、厚尾（thick-tailed）分佈的峯度值大於3

jddf['opening_price'].kurt()

數據透視表

pivot_table(data,values=,index=,columns=,aggfun='mean',
           fill_value = ,margins=False,dropna=True,margins_name='All')

pivot_table(storesales,values=['orders'],index=['store'],columns=['method'],aggfun='mean',
           fill_value =0)

data:指定pandas中的dataframe

index、columns、values:分別對應數據透視表中的行列值，都是df指定的列

aggfunc：指定彙總形式

margins：指定分類彙總總和總計

fill_value:指定填補的缺失值

dropna：指定是否所有數據項都是缺失值的列

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python數據描述

集中趨勢

均值(加權截尾去尾幾何調和）

中位數

分位數

衆數

極差

四分位差

方差和標準差

協方差

變異係數（標準差係數、離散係數）

分佈形狀

偏度(數據分佈對稱性的測度）

峯度（數據分佈曲線頂端陡峭或扁平程度的指標）

數據透視表

測試人員都是畫畫大神，讓我看看誰還不會用代碼圖？

網絡現代化通向雲原生應用的高速公路

面試官：說說你對序列化的理解

Object.values()對象遍歷

多個left join的疑問

異常檢測實戰

時間序列流程

python非參數檢驗

從組合中估計概率

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結