数据分析基础篇---统计学基础

描述数据
1.频数分布表、树图、 频数密度=频数/组距

2.算数平均值、中位数、众数

3.四分位数间距法(剔除异常值)/百分位数
----展示方式:矩形-胡须图(也叫箱线图)

  1. 数据排序
  2. 中位数分成项数相等的高低两组
  3. 低值组中位数,第一四分位数Q1
  4. 高值组中位数,第三四分位数Q3
  5. 四分位间距 IQR=Q3-Q1

标准离差
1.方差

2.标准差

3.z-比值/标准比值 :从数据点到平均值的标准离差个数

4.经验法则:对于接近正态分布的数据集合,约68%的数据分布在平均值左右各一个的标准离差的区间内;约95%的数据分布在平均数左右各两个的标注离差的区间内。

概率
1.有关定义:随机试验、基本结果、样本空间、古典概率、相对频率、个别概率、

2.概率树: 1分出层级 2填写已知信息 3每一级分支的概率和为1

3.概率 交并补的计算 条件概率

4.贝叶斯法则 P(AIB)=P(A)*P(BIA)/P(A)*P(BIA)+P(A’)*P(BIA’)

随机变量

期望:概率分布的平均数
期望值 :随机变量的平均数=每个数值*发生概率之和

方差、标准离差:结果的分散性
E(X)+E(Y)=E(X+Y) Var(X+Y)=Var(X)+Var(y)
E(X)-E(Y)=E(X-Y) Var(X-Y)=Var(X)+Var(y)

排列组合
排列 (与顺序有关)
有序排列 阶乘 n ! 圆形排位 (n-1)!
重复排列公式(按类型排位):如果n个对象排位,其中包括第一个对象k个,第二类对象j个…,则排位公式 n!/j!k!m!.. ​

组合(与顺序无关)
C(n r)=n!/r!(n-r)!

二项分布、几何分布及泊松分布
几何分布 :进行多次独立重复试验,每一次试验都有成功和失败的可能,取得成功需要试验几次。

P(X=r)=q(r-1)p
P(X>r)=q的r次幂
p(x<=r)=1- q的r次幂
X~Geo§:X符合几何分布,其成功率为p
期望E(X)=1/P
方差Var(X)=q/p2

二项分布 :一系列的独立重复试验,每一次试验都存在失败和成功的可能,每一次试验的成功概率相同,试验次数有限。
P(X=r)=[nCr]PrQn-r
[nCr]=n!/r!(n-r)!
X~B(n,p)
E(X)=np
Var(X)=npq

泊松分布 X~Po(λ) :单独事件在给定区间内随即发生、独立的发生,给定区间可以是时间或空间,已知该区间的事件平均发生次数(发生率),且为有限数值。

p(X=r)=e的-λ次幂* λ的r次幂/r! (e=2.718)
E(X)=λ
Var(X)=λ
当n很大且P很小时,可以用泊松分布代替二项分布 X~Po(np) 近似代替 X~B(n,p)

正态分布 :X~N(μ,δ2) μ曲线的中间位置,δ2分散性,δ2越大,正态分布曲线越扁平、越宽。

连续概率分布----概率密度函数:面积=概率 (总面积=1)

求法

  1. 确定分布和范围 均值μ,方差δ2
  2. 标准化 N(0,1) X-μ,Z=(X-μ) /δ
  3. 查找概率 概率表查找概率,Z保留2位小数 (例如-3.27 第一列找-3.2 第一行找0.07 )
  4. P(Z>z)=1-P(Z<z) P(a<Z<b)=P(Z<b)-P(Z<a)
  5. aX+b~N(aμ+b,a2δ2)

正态分布近似代替二项分布:如果X-B(N,P),且np>5,nq>5,则可以使用X~N(np,npq)近似代替二项分布。
μ=np且δ2=npq 使用时应该进行连续性修正, P(X<=a),应额外增加0.5, P(X>=a),应额外减去0.5,P(a<=X<=b)=P(a-0.5<X<b+0.5)

正态分布近似代替泊松分布 :如果X-Po(λ)且λ>15,则可用X~N(λ,λ)进行近似。 需要进行连续性修正。

抽样
简单随机抽样: 无偏性 独立性 重复/不重复抽样
分层抽样
整群抽样
等距抽样
机会抽样

中心极限定理 :
1.如果X的样本很大,则均值的分布近似为正态分布。
二项分布 X(均值-N(np,pq)
泊松分布X(均值)~N(λ,λ/n)

2.如果从一个非正态总体X中取出一个样本,且样本很大,则均值的分布近似为正态分布。如果总体的均值和方差为μ和δ2,且n很大。例如 >30,X(均值)~N(μ,δ2/n)

比列抽样分布:
E(Ps)=p Var(Ps)=pq/n
p为总体比例
比例标准误差√Var(Ps)
如果n>30,则Ps符合正态分布,Ps~N(p,pq/n),使用这个公式时需要进行连续性修正:± 1/2n

置信区间

  1. 选择总体统计量
  2. 求出其抽样分布
  3. 决定置信水平
  4. 求出置信上下限
  5. 求Z,用μ改写不等式,即可得到μ的置信区间,最后求均值

假设检验

  1. 确定要进行检验假设
  2. 选择检验统计量
  3. 确定用于作决策的拒绝域
  4. 求出检验统计量的P值
  5. 查看样本结果是否位于拒绝域内
  6. 做出决策

比较两个总体的方法

  1. 当总体数量少的时候,比较两总体的标准离差
  2. 当总体数量大的时候,比较两总体的平均数

实验设计

  1. 重复试验
  2. 局部控制
  3. 随机化

回归分析

  1. 误差平方和 SSE=∑(y-y(预测值))²
  2. 最佳拟合线 Y=a+bX

方差分析

  1. 拟合度
  2. SSR=SSE/SSyy
  3. R²=SSE/SSyy=1-SSE/SSyy (R²=1时,越完全拟合)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章