数据分析基础篇---统计学基础

描述数据
1.频数分布表、树图、频数密度=频数/组距

2.算数平均值、中位数、众数

3.四分位数间距法（剔除异常值）/百分位数
----展示方式：矩形-胡须图（也叫箱线图）

数据排序
中位数分成项数相等的高低两组
低值组中位数，第一四分位数Q1
高值组中位数，第三四分位数Q3
四分位间距 IQR=Q3-Q1

标准离差
1.方差

2.标准差

3.z-比值/标准比值：从数据点到平均值的标准离差个数

4.经验法则：对于接近正态分布的数据集合，约68%的数据分布在平均值左右各一个的标准离差的区间内；约95%的数据分布在平均数左右各两个的标注离差的区间内。

概率
1.有关定义：随机试验、基本结果、样本空间、古典概率、相对频率、个别概率、

2.概率树： 1分出层级 2填写已知信息 3每一级分支的概率和为1

3.概率交并补的计算条件概率

4.贝叶斯法则 P(AIB)=P(A)*P(BIA)/P(A)*P(BIA)+P(A’)*P(BIA’)

随机变量

期望：概率分布的平均数
期望值：随机变量的平均数=每个数值*发生概率之和

方差、标准离差：结果的分散性
E(X)+E(Y)=E(X+Y) Var(X+Y)=Var(X)+Var(y)
E(X)-E(Y)=E(X-Y) Var(X-Y)=Var(X)+Var(y)

排列组合
排列（与顺序有关）
有序排列阶乘 n ! 圆形排位（n-1)!
重复排列公式（按类型排位）：如果n个对象排位，其中包括第一个对象k个，第二类对象j个…,则排位公式 n!/j!k!m!..

组合（与顺序无关）
C(n r)=n!/r!(n-r)!

二项分布、几何分布及泊松分布
几何分布 ：进行多次独立重复试验，每一次试验都有成功和失败的可能，取得成功需要试验几次。

P(X=r)=q(r-1)p
P(X>r)=q的r次幂
p(x<=r)=1- q的r次幂
X~Geo§:X符合几何分布，其成功率为p
期望E(X)=1/P
方差Var(X)=q/p2

二项分布 ：一系列的独立重复试验，每一次试验都存在失败和成功的可能，每一次试验的成功概率相同，试验次数有限。
P(X=r)=[nCr]PrQn-r
[nCr]=n!/r!(n-r)!
X~B(n,p)
E(X)=np
Var(X)=npq

泊松分布 X~Po(λ）：单独事件在给定区间内随即发生、独立的发生，给定区间可以是时间或空间，已知该区间的事件平均发生次数（发生率），且为有限数值。

p(X=r)=e的-λ次幂* λ的r次幂/r！（e=2.718)
E(X)=λ
Var(X)=λ
当n很大且P很小时，可以用泊松分布代替二项分布 X~Po(np) 近似代替 X~B(n,p)

正态分布 ：X~N(μ，δ2） μ曲线的中间位置，δ2分散性，δ2越大，正态分布曲线越扁平、越宽。

连续概率分布----概率密度函数：面积=概率（总面积=1）

求法

确定分布和范围均值μ，方差δ2
标准化 N(0,1) X-μ，Z=(X-μ) /δ
查找概率概率表查找概率，Z保留2位小数（例如-3.27 第一列找-3.2 第一行找0.07 ）
P(Z>z)=1-P(Z<z) P(a<Z<b)=P(Z<b)-P(Z<a)
aX+b~N(aμ+b，a2δ2)

正态分布近似代替二项分布：如果X-B(N,P),且np>5,nq>5,则可以使用X~N(np,npq)近似代替二项分布。
μ=np且δ2=npq 使用时应该进行连续性修正， P(X<=a),应额外增加0.5， P(X>=a)，应额外减去0.5，P(a<=X<=b)=P(a-0.5<X<b+0.5)

正态分布近似代替泊松分布 ：如果X-Po(λ）且λ>15,则可用X~N(λ,λ）进行近似。需要进行连续性修正。

抽样
简单随机抽样：无偏性独立性重复/不重复抽样
分层抽样
整群抽样
等距抽样
机会抽样

中心极限定理 :
1.如果X的样本很大，则均值的分布近似为正态分布。
二项分布 X(均值-N(np,pq)
泊松分布X（均值）~N(λ，λ/n)

2.如果从一个非正态总体X中取出一个样本，且样本很大，则均值的分布近似为正态分布。如果总体的均值和方差为μ和δ2，且n很大。例如 >30,X（均值）~N(μ，δ2/n)

比列抽样分布：
E(Ps)=p Var(Ps)=pq/n
p为总体比例
比例标准误差√Var（Ps)
如果n>30,则Ps符合正态分布，Ps~N(p,pq/n),使用这个公式时需要进行连续性修正：± 1/2n

置信区间

选择总体统计量
求出其抽样分布
决定置信水平
求出置信上下限
求Z，用μ改写不等式，即可得到μ的置信区间，最后求均值

假设检验

确定要进行检验假设
选择检验统计量
确定用于作决策的拒绝域
求出检验统计量的P值
查看样本结果是否位于拒绝域内
做出决策

比较两个总体的方法

当总体数量少的时候，比较两总体的标准离差
当总体数量大的时候，比较两总体的平均数

实验设计

重复试验
局部控制
随机化

回归分析

误差平方和 SSE=∑（y-y(预测值））²
最佳拟合线 Y=a+bX

方差分析

拟合度
SSR=SSE/SSyy
R²=SSE/SSyy=1-SSE/SSyy (R²=1时，越完全拟合）

数据分析基础篇---统计学基础

前端使用 Konva 实现可视化设计器（13）- 折线 - 最优路径应用【思路篇】

高效能人士的七個習慣-讀書筆記

時間管理

定位-感悟摘錄

關鍵對話-讀書筆記

原則-讀書筆記

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結