缘由：

学习笔记的起始缘由：遇到了一个活跃的学习小组，学习内容又是一直想学而且想用好的领域。

学习内容大纲如下：

第一周学习内容——描述性统计

知识点如下：

数据集中趋势：
- 中位数、均值、众数、极差、分位数
- 算数平均数、加权平均数、几何平均数
数据的离中趋势：
- 数值型数据：方差、标准差、极差、平均差
- 分类型数据：异众比率
- 顺序型数据：四分位差
相对离散程度：离散系数
分布的形状：偏态系数、峰态系数

个人学习总结

part1 概念体系

描述性统计可以进行四个维度的分析：分布分析、对比分析、构成分析、相关性分析。

part2 概念定义和主要用途

2.1分布分析：

算数平均数：

定义：数据简单加和除以数据个数
优点：考虑了每一个数据的作用
缺点：数据量小时，容易受极端值影响
应用场景：所有权重相等的，汇总结果为加和形式的，求平均水平的场景
加权平均数：
定义：给每个数据项特定的权重，再求均值
优点：可以结合先验的经验/相对的比重，人工设定数据项的影响力
缺点：先验经验可能不准确
应用场景：各种指数的计算（价格指数、上证指数等）
几何平均数：
定义：所有数据相乘之后再开方
优点：相比算数平均，受极端值影响较小
缺点：若变量有负值，则几何平均就会成为复数或者虚数；若数值中有0，则算数平均为0
应用场景：当汇总结果为乘积的形式时
中位数：
定义：按照大小排序，位于中间的一个数/两个数的均值
优点：不易受极端值的影响
缺点：当数据比较离散时，则中位数意义不大；当数据分布偏态时，中位数代表性会受影响
应用场景：未知~~
众数：
定义：出现次数最多的数
优点：不易受数据中极端数值的影响
缺点：当数据呈多峰分布时，没有代表性
应用场景：
四分位数：
定义：把数据集排序后分成四等分，位于分位线上的数
优点：可以识别出数据大致分布情况（箱线图）
缺点：无法了解到比25%更小的颗粒度数据分布情况
应用场景：箱线图（五数概括法）
极差：
定义：全距，最大值减去最小值，总体标准差的有偏估计
优点：计算简单；了解数据分大致分布
缺点：颗粒度比四分数大；受极端值影响
应用场景：比赛成绩，去掉最高分和最低分
方差：
定义：每个数与均值之差的平方和，反映总体离散程度，自由度为n-1
优点：可以衡量样本离均值离散程度
缺点：方差的度量和样本均值的度量不一致，无法直接比较
应用场景：
标准差：
定义：每个数与均值之差的平方和的开方，反映总体离散程度，自由度为n-1
优点：可以直观的了解到偏差的程度，和均值是同一量纲
缺点：不能对比不同项目/同一项目不同样本，因为量纲不一样（1单位的方差意义不同）
应用场景：
异众比率：
定义：非众数频数除以总数，聚焦在众数的代表程度
优点：可算分类数据
缺点：离散程度不可知
应用场景：
四分位差：
定义：四分位距，也叫内距，IRQ = Q3-Q1（Inter-quartile range）
优点：不受两端各25%数值的影响；可衡量中间50%数值的差异程度；聚焦的是中位数代表性
缺点：不能反映所有数值的离散程度
应用场景：异常值检测[Q1-1.5* IQR,Q3+1.5* IQR]
离散系数：
定义：变异系数，标准差的归一化操作。C.V = σ/X （X代表均值）
优点：无量纲，可以直接比较不同项目，系数越大的代表分布越离散
缺点：均值接近0时，标准差的微小变动会造成系数较大波动，从而造成精确度不足；变异系数无法发展出类似均值的置信区间的工具。（还没弄懂）
应用场景：更新理论、排队理论、可靠性理论
偏态系数：
定义：偏差系数，sk = （X-M）/σ X是均值，M是中位数，σ是方差；①左偏：均值小于中位数（因为数据存在极小值，将均值带小了。即极小值附近有长尾，峰在右侧），偏态系数小于0；②右偏：均值大于中位数（因为数据存在极大值，将均值带大了。即极大值附近有长尾，峰在左侧），偏态系数大于0；③对称：均值等于中位数，等于众数。绝对值越大，偏斜程度越大。
优点：可以衡量数据的偏斜程度
缺点：非单峰分布不能使用？（不十分确定）
应用场景：

2.2对比分析：

同比：
定义：同比上一个周期的同一时期
优点：可有效比较有周期性规律的数据变化
缺点：
应用场景：
环比：
定义：环比上一个时期
优点：方便比较相邻两期数据的变化；多期环比可做长期分析
缺点：
应用场景：
定基比：
定义：相比固定时期
优点：可公平比较多期数据；把握现象发展的长期趋势和宏观状态
缺点：
应用场景：
硬刚比：
定义：横向比较，直接相除：A/B
优点：可方便观察相对关系
缺点：未考察时间维度和其它因素
应用场景：

2.3相关性分析：

皮尔森系数：
定义：ρx,y = cov(X,Y)/(σ1* σ2)
优点：
缺点：
应用场景：R2 线性拟合程度
斯皮尔曼系数：
定义：ρ = 1 - (6∑di2)/(n3* n) d为两列对等变量等级差；n为等级个数
优点：可计算非数值型数据的相关性，无需总体正态假设
缺点：
应用场景：
最大信息系数：
定义：待定，还不知道是啥，也不知道能不能用，百度百科未收录
优点：
缺点：
应用场景：

part3 代码实现

对应公式：
可视化图表：
分布、对比、构成、相关（联系）

最后感谢学习小组组织者——木东居士：

另外可见：
统计学原理之描述性统计——开篇

统计学原理之描述性统计——开篇

缘由：

第一周学习内容——描述性统计

个人学习总结

part1 概念体系

part2 概念定义和主要用途

2.1分布分析：

2.2对比分析：

2.3相关性分析：

part3 代码实现

SQL优化-20231016

移動端自動化測試入門：用appium 控制安卓手機打開app（第二版，已完成）

pandas 數據分析總結

密碼編碼學初探——分組加密技術（DES&AES）

pandas 數據處理從入門到入門教程（待續）

密碼編碼學初探——傳統加密技術

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結