緣由：

學習筆記的起始緣由：遇到了一個活躍的學習小組，學習內容又是一直想學而且想用好的領域。

學習內容大綱如下：

第一週學習內容——描述性統計

知識點如下：

數據集中趨勢：
- 中位數、均值、衆數、極差、分位數
- 算數平均數、加權平均數、幾何平均數
數據的離中趨勢：
- 數值型數據：方差、標準差、極差、平均差
- 分類型數據：異衆比率
- 順序型數據：四分位差
相對離散程度：離散係數
分佈的形狀：偏態係數、峯態係數

個人學習總結

part1 概念體系

描述性統計可以進行四個維度的分析：分佈分析、對比分析、構成分析、相關性分析。

part2 概念定義和主要用途

2.1分佈分析：

算數平均數：

定義：數據簡單加和除以數據個數
優點：考慮了每一個數據的作用
缺點：數據量小時，容易受極端值影響
應用場景：所有權重相等的，彙總結果爲加和形式的，求平均水平的場景
加權平均數：
定義：給每個數據項特定的權重，再求均值
優點：可以結合先驗的經驗/相對的比重，人工設定數據項的影響力
缺點：先驗經驗可能不準確
應用場景：各種指數的計算（價格指數、上證指數等）
幾何平均數：
定義：所有數據相乘之後再開方
優點：相比算數平均，受極端值影響較小
缺點：若變量有負值，則幾何平均就會成爲複數或者虛數；若數值中有0，則算數平均爲0
應用場景：當彙總結果爲乘積的形式時
中位數：
定義：按照大小排序，位於中間的一個數/兩個數的均值
優點：不易受極端值的影響
缺點：當數據比較離散時，則中位數意義不大；當數據分佈偏態時，中位數代表性會受影響
應用場景：未知~~
衆數：
定義：出現次數最多的數
優點：不易受數據中極端數值的影響
缺點：當數據呈多峯分佈時，沒有代表性
應用場景：
四分位數：
定義：把數據集排序後分成四等分，位於分位線上的數
優點：可以識別出數據大致分佈情況（箱線圖）
缺點：無法瞭解到比25%更小的顆粒度數據分佈情況
應用場景：箱線圖（五數概括法）
極差：
定義：全距，最大值減去最小值，總體標準差的有偏估計
優點：計算簡單；瞭解數據分大致分佈
缺點：顆粒度比四分數大；受極端值影響
應用場景：比賽成績，去掉最高分和最低分
方差：
定義：每個數與均值之差的平方和，反映總體離散程度，自由度爲n-1
優點：可以衡量樣本離均值離散程度
缺點：方差的度量和樣本均值的度量不一致，無法直接比較
應用場景：
標準差：
定義：每個數與均值之差的平方和的開方，反映總體離散程度，自由度爲n-1
優點：可以直觀的瞭解到偏差的程度，和均值是同一量綱
缺點：不能對比不同項目/同一項目不同樣本，因爲量綱不一樣（1單位的方差意義不同）
應用場景：
異衆比率：
定義：非衆數頻數除以總數，聚焦在衆數的代表程度
優點：可算分類數據
缺點：離散程度不可知
應用場景：
四分位差：
定義：四分位距，也叫內距，IRQ = Q3-Q1（Inter-quartile range）
優點：不受兩端各25%數值的影響；可衡量中間50%數值的差異程度；聚焦的是中位數代表性
缺點：不能反映所有數值的離散程度
應用場景：異常值檢測[Q1-1.5* IQR,Q3+1.5* IQR]
離散係數：
定義：變異係數，標準差的歸一化操作。C.V = σ/X （X代表均值）
優點：無量綱，可以直接比較不同項目，係數越大的代表分佈越離散
缺點：均值接近0時，標準差的微小變動會造成係數較大波動，從而造成精確度不足；變異係數無法發展出類似均值的置信區間的工具。（還沒弄懂）
應用場景：更新理論、排隊理論、可靠性理論
偏態係數：
定義：偏差係數，sk = （X-M）/σ X是均值，M是中位數，σ是方差；①左偏：均值小於中位數（因爲數據存在極小值，將均值帶小了。即極小值附近有長尾，峯在右側），偏態係數小於0；②右偏：均值大於中位數（因爲數據存在極大值，將均值帶大了。即極大值附近有長尾，峯在左側），偏態係數大於0；③對稱：均值等於中位數，等於衆數。絕對值越大，偏斜程度越大。
優點：可以衡量數據的偏斜程度
缺點：非單峯分佈不能使用？（不十分確定）
應用場景：

2.2對比分析：

同比：
定義：同比上一個週期的同一時期
優點：可有效比較有週期性規律的數據變化
缺點：
應用場景：
環比：
定義：環比上一個時期
優點：方便比較相鄰兩期數據的變化；多期環比可做長期分析
缺點：
應用場景：
定基比：
定義：相比固定時期
優點：可公平比較多期數據；把握現象發展的長期趨勢和宏觀狀態
缺點：
應用場景：
硬剛比：
定義：橫向比較，直接相除：A/B
優點：可方便觀察相對關係
缺點：未考察時間維度和其它因素
應用場景：

2.3相關性分析：

皮爾森係數：
定義：ρx,y = cov(X,Y)/(σ1* σ2)
優點：
缺點：
應用場景：R2 線性擬合程度
斯皮爾曼係數：
定義：ρ = 1 - (6∑di2)/(n3* n) d爲兩列對等變量等級差；n爲等級個數
優點：可計算非數值型數據的相關性，無需總體正態假設
缺點：
應用場景：
最大信息係數：
定義：待定，還不知道是啥，也不知道能不能用，百度百科未收錄
優點：
缺點：
應用場景：

part3 代碼實現

對應公式：
可視化圖表：
分佈、對比、構成、相關（聯繫）

最後感謝學習小組組織者——木東居士：

另外可見：
統計學原理之描述性統計——開篇

統計學原理之描述性統計——開篇

緣由：

第一週學習內容——描述性統計

個人學習總結

part1 概念體系

part2 概念定義和主要用途

2.1分佈分析：

2.2對比分析：

2.3相關性分析：

part3 代碼實現

HTML頁面關於高分屏的設置

北歐瑞典挪威芬蘭瑞士TikTok海外網紅與YouTube博主的合作模式

druid數據源 xml配置

移動端自動化測試入門：用appium 控制安卓手機打開app（第二版，已完成）

pandas 數據分析總結

密碼編碼學初探——分組加密技術（DES&AES）

pandas 數據處理從入門到入門教程（待續）

密碼編碼學初探——傳統加密技術

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結