描述数据
1.频数分布表、树图、 频数密度=频数/组距
2.算数平均值、中位数、众数
3.四分位数间距法(剔除异常值)/百分位数
----展示方式:矩形-胡须图(也叫箱线图)
- 数据排序
- 中位数分成项数相等的高低两组
- 低值组中位数,第一四分位数Q1
- 高值组中位数,第三四分位数Q3
- 四分位间距 IQR=Q3-Q1
标准离差
1.方差
2.标准差
3.z-比值/标准比值 :从数据点到平均值的标准离差个数
4.经验法则:对于接近正态分布的数据集合,约68%的数据分布在平均值左右各一个的标准离差的区间内;约95%的数据分布在平均数左右各两个的标注离差的区间内。
概率
1.有关定义:随机试验、基本结果、样本空间、古典概率、相对频率、个别概率、
2.概率树: 1分出层级 2填写已知信息 3每一级分支的概率和为1
3.概率 交并补的计算 条件概率
4.贝叶斯法则 P(AIB)=P(A)*P(BIA)/P(A)*P(BIA)+P(A’)*P(BIA’)
随机变量
期望:概率分布的平均数
期望值 :随机变量的平均数=每个数值*发生概率之和
方差、标准离差:结果的分散性
E(X)+E(Y)=E(X+Y) Var(X+Y)=Var(X)+Var(y)
E(X)-E(Y)=E(X-Y) Var(X-Y)=Var(X)+Var(y)
排列组合
排列 (与顺序有关)
有序排列 阶乘 n ! 圆形排位 (n-1)!
重复排列公式(按类型排位):如果n个对象排位,其中包括第一个对象k个,第二类对象j个…,则排位公式 n!/j!k!m!..
组合(与顺序无关)
C(n r)=n!/r!(n-r)!
二项分布、几何分布及泊松分布
几何分布 :进行多次独立重复试验,每一次试验都有成功和失败的可能,取得成功需要试验几次。
P(X=r)=q(r-1)p
P(X>r)=q的r次幂
p(x<=r)=1- q的r次幂
X~Geo§:X符合几何分布,其成功率为p
期望E(X)=1/P
方差Var(X)=q/p2
二项分布 :一系列的独立重复试验,每一次试验都存在失败和成功的可能,每一次试验的成功概率相同,试验次数有限。
P(X=r)=[nCr]PrQn-r
[nCr]=n!/r!(n-r)!
X~B(n,p)
E(X)=np
Var(X)=npq
泊松分布 X~Po(λ) :单独事件在给定区间内随即发生、独立的发生,给定区间可以是时间或空间,已知该区间的事件平均发生次数(发生率),且为有限数值。
p(X=r)=e的-λ次幂* λ的r次幂/r! (e=2.718)
E(X)=λ
Var(X)=λ
当n很大且P很小时,可以用泊松分布代替二项分布 X~Po(np) 近似代替 X~B(n,p)
正态分布 :X~N(μ,δ2) μ曲线的中间位置,δ2分散性,δ2越大,正态分布曲线越扁平、越宽。
连续概率分布----概率密度函数:面积=概率 (总面积=1)
求法
- 确定分布和范围 均值μ,方差δ2
- 标准化 N(0,1) X-μ,Z=(X-μ) /δ
- 查找概率 概率表查找概率,Z保留2位小数 (例如-3.27 第一列找-3.2 第一行找0.07 )
- P(Z>z)=1-P(Z<z) P(a<Z<b)=P(Z<b)-P(Z<a)
- aX+b~N(aμ+b,a2δ2)
正态分布近似代替二项分布:如果X-B(N,P),且np>5,nq>5,则可以使用X~N(np,npq)近似代替二项分布。
μ=np且δ2=npq 使用时应该进行连续性修正, P(X<=a),应额外增加0.5, P(X>=a),应额外减去0.5,P(a<=X<=b)=P(a-0.5<X<b+0.5)
正态分布近似代替泊松分布 :如果X-Po(λ)且λ>15,则可用X~N(λ,λ)进行近似。 需要进行连续性修正。
抽样
简单随机抽样: 无偏性 独立性 重复/不重复抽样
分层抽样
整群抽样
等距抽样
机会抽样
中心极限定理 :
1.如果X的样本很大,则均值的分布近似为正态分布。
二项分布 X(均值-N(np,pq)
泊松分布X(均值)~N(λ,λ/n)
2.如果从一个非正态总体X中取出一个样本,且样本很大,则均值的分布近似为正态分布。如果总体的均值和方差为μ和δ2,且n很大。例如 >30,X(均值)~N(μ,δ2/n)
比列抽样分布:
E(Ps)=p Var(Ps)=pq/n
p为总体比例
比例标准误差√Var(Ps)
如果n>30,则Ps符合正态分布,Ps~N(p,pq/n),使用这个公式时需要进行连续性修正:± 1/2n
置信区间
- 选择总体统计量
- 求出其抽样分布
- 决定置信水平
- 求出置信上下限
- 求Z,用μ改写不等式,即可得到μ的置信区间,最后求均值
假设检验
- 确定要进行检验假设
- 选择检验统计量
- 确定用于作决策的拒绝域
- 求出检验统计量的P值
- 查看样本结果是否位于拒绝域内
- 做出决策
比较两个总体的方法
- 当总体数量少的时候,比较两总体的标准离差
- 当总体数量大的时候,比较两总体的平均数
实验设计
- 重复试验
- 局部控制
- 随机化
回归分析
- 误差平方和 SSE=∑(y-y(预测值))²
- 最佳拟合线 Y=a+bX
方差分析
- 拟合度
- SSR=SSE/SSyy
- R²=SSE/SSyy=1-SSE/SSyy (R²=1时,越完全拟合)