《白话统计》笔记 v.1

1. 变异,统计学的基础

  • 科学抽样的重要性大于样本个数。

  • 由于抽样误差的存在,如果用样本统计量直接估计总体参数,则肯定会有一定的偏差,所以再估计总体参数时需要考虑到这种偏差的大小,即利用置信区间加粗样式来估计总体参数。

  • 可以根据一次样本来计算抽样误差的大小,即标准误。标准误再所有统计方法中都会出现。其可以提供结果的可靠性,如果标准误小,则结果可靠;如果标准误大则抽样误差大,提示样本代表性不强,此时应该加大样本量。

2. 概率分布

  • 累积分布 对应 内力消耗值,利用 F(x)表示。 概率密度 对应 内力消耗速度,利用 f(x)表示。
  • 累积分布的斜率越大,概率密度越大,密度值等于累积分布的斜率。
  • 我们说的正态分布,二项分布,t分布等概率分布都是概率密度函数,他们下方的面积是100%,只是不同点的密度不同而已,是有的在x=0时密度大一些,有点在x=2时密度大一些。

知道概率密度有什么用?

2. 1 用weibull分布寻找生存规律

  • 为什么一定要用分布?
  1. 因为使用的分布都有固定的形状,只要确定了相应的参数就可以明确该分布的形状。
  2. 一般利用统计软件求出相应的参数,这样就可以根据这些参数来说明数的变化规律。
  3. 选择用什么分布都是根据经验。之前应该还选择了其它的分布形式,只是该分布形式效果好就留下了。

2. 2 用logistic分布探索疾病流行规律

如果想知道感染疾病的速度就需要再看看概率密度图
在这里插入图片描述
Logistic分布经常用于研究生命周期演变过程。分为:发生,发展,成熟,饱和。

2. 3 “普通”的正态分布

用以描述某些比较稳定但是又受一些偶然因素影响的现象。

正态分布——normal distribution,即普通的分布,代表现实中最普通的一种数据形式。由两个参数决定——均数和标准差

均数是位置参数,标准差是形状参数

最前面的系数由标准差来确定,即标准差越大,对应的密度值越小,即分布越矮胖;标准差越小,对应的密度值越大,分布越“瘦高”。

正态分布下的面积规律 以及 6倍西格玛~
在这里插入图片描述

2. 4 标准正态分布

在各种形状的正态分布中,标准正态分布(standardized normal distribution)最实用。即把原始数据进行标准化后,对标准化的数据拟合正态分布。

标准化将数据转换成以0为均数,以1为标准差的值。
所以标准正态分布就是一个以0为中心,以1为标准差的分布。

标准正态分布相对于把正态分布的规律简化了,因为其标准差是1,所以横轴上的1,2直接是1倍标准差,2倍标准差,从而利用标准正态分布来说明面积规律就更加简单了,比如:以0为中心,在正负2的范围内面积约为95.4%。

2. 5 小样本分布——t 分布

t检验对应的t分布。

将大样本和小样本的分布区别找出来,从而符合小样本的一套分布。
在这里插入图片描述

3. 关于统计资料类型的思考

在这里插入图片描述
连续型资料和离散型资料区别在于有无小数点。

3. 1 寻找cut-off值的多种方法

3.1.1 根据专业和经验

3.1.2 利用ROC曲线找到cut-off值(二分类结局)

其必须有一个明确的二分类结局。
在这里插入图片描述

3.1.3 利用最大选择秩统计量找到cut-off值

3.1.4 利用分类树来划分

在这里插入图片描述

3.1.5 聚类分析

上述方法都必须有一个已经确定的结局(因变量),然后根据这一结局对自变量进行划分,通常将这些情况称为 有监督的

无监督 为有时可能只有一个连续变量,其它什么都没有,在这种情况下就无法根据结局对其进行划分,只能利用该变量本身的数据进行划分,此时就可以采用聚类分析(cluster analysis)

聚类分析的算法有:

层次法; K-means法; SOM法; 概率模型法

  1. 层次分析法需要自己判断聚成几类合适;
  2. K-means法通过寻找每一类的中心点,保证该类中的点都距离自己的中心点较近,而其它类中的点距离自己的中心点较远。

聚类分析思想: 基于距离来划分,两个点距离近就划分到一类,两个点距离远就划分为另外一类。

有的聚类算法需要在划分前先指定 拟划分类别数(K-means法和SOM法),有的则不需要(层次分析法)。

聚类方法总的原则:保证划分后各类别之间的距离尽量远,类别内的距离尽量近。

PS:聚类分析完全是根据数据本身来划分,不涉及任何专业的知识,但有的时候会导致划分的类别和专业相悖。所以需要谨慎~!!!!

3.1.6 虚拟变量和哑变量

Dummy variable 即假的变量,不是真实的变量。就是把原来的一个多分类变量转换为多个二分类变量,总的来说就是:如果多分类变量有k个类别,则可以转换为k-1个二分类变量。

分类结果的解释一本都要有参照类别。当我们把k个类别的多分类变量转换为k-1个二分类变量后,每个二分类变量表示相对参照类的大小。

例如,多分类变量x用1,2,3,4表示,我们设定以1为参照,那么生成的3个虚拟变量分布表示2和1相比的大小,3和1相比的大小,4和1相比的大小。

通过生成虚拟变量,我们就把原来的一个系数变成了多个系数,这个系数更加详细地说明了自变量和因变量之间地关系,在自变量和因变量呈非线性关系地时候,这很重要。因为在使用线性回归和logistic回归的时候,实际上我们就已经默认了自变量和因变量之间呈现线性关系,我们就已经不可能找出非线性的关系了。

在这里插入图片描述
在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章