《白话统计》笔记 v.1

3. 关于统计资料类型的思考

3. 1 寻找cut-off值的多种方法

1. 变异，统计学的基础

科学抽样的重要性大于样本个数。
由于抽样误差的存在，如果用样本统计量直接估计总体参数，则肯定会有一定的偏差，所以再估计总体参数时需要考虑到这种偏差的大小，即利用置信区间加粗样式来估计总体参数。
可以根据一次样本来计算抽样误差的大小，即标准误。标准误再所有统计方法中都会出现。其可以提供结果的可靠性，如果标准误小，则结果可靠；如果标准误大则抽样误差大，提示样本代表性不强，此时应该加大样本量。

2. 概率分布

累积分布对应内力消耗值，利用 F（x）表示。概率密度对应内力消耗速度，利用 f（x）表示。
累积分布的斜率越大，概率密度越大，密度值等于累积分布的斜率。
我们说的正态分布，二项分布，t分布等概率分布都是概率密度函数，他们下方的面积是100%，只是不同点的密度不同而已，是有的在x=0时密度大一些，有点在x=2时密度大一些。

知道概率密度有什么用？

2. 1 用weibull分布寻找生存规律

为什么一定要用分布？

因为使用的分布都有固定的形状，只要确定了相应的参数就可以明确该分布的形状。

一般利用统计软件求出相应的参数，这样就可以根据这些参数来说明数的变化规律。

选择用什么分布都是根据经验。之前应该还选择了其它的分布形式，只是该分布形式效果好就留下了。

2. 2 用logistic分布探索疾病流行规律

如果想知道感染疾病的速度就需要再看看概率密度图。

Logistic分布经常用于研究生命周期演变过程。分为：发生，发展，成熟，饱和。

2. 3 “普通”的正态分布

用以描述某些比较稳定但是又受一些偶然因素影响的现象。

正态分布——normal distribution，即普通的分布，代表现实中最普通的一种数据形式。由两个参数决定——均数和标准差。

均数是位置参数，标准差是形状参数。

最前面的系数由标准差来确定，即标准差越大，对应的密度值越小，即分布越矮胖；标准差越小，对应的密度值越大，分布越“瘦高”。

正态分布下的面积规律以及 6倍西格玛~

2. 4 标准正态分布

在各种形状的正态分布中，标准正态分布（standardized normal distribution）最实用。即把原始数据进行标准化后，对标准化的数据拟合正态分布。

标准化将数据转换成以0为均数，以1为标准差的值。
所以标准正态分布就是一个以0为中心，以1为标准差的分布。

标准正态分布相对于把正态分布的规律简化了，因为其标准差是1，所以横轴上的1，2直接是1倍标准差，2倍标准差，从而利用标准正态分布来说明面积规律就更加简单了，比如：以0为中心，在正负2的范围内面积约为95.4%。

2. 5 小样本分布——t 分布

t检验对应的t分布。

将大样本和小样本的分布区别找出来，从而符合小样本的一套分布。

3. 关于统计资料类型的思考

连续型资料和离散型资料区别在于有无小数点。

3. 1 寻找cut-off值的多种方法

3.1.1 根据专业和经验

3.1.2 利用ROC曲线找到cut-off值（二分类结局）

其必须有一个明确的二分类结局。

3.1.3 利用最大选择秩统计量找到cut-off值

3.1.4 利用分类树来划分

3.1.5 聚类分析

上述方法都必须有一个已经确定的结局（因变量），然后根据这一结局对自变量进行划分，通常将这些情况称为 有监督的。

无监督 为有时可能只有一个连续变量，其它什么都没有，在这种情况下就无法根据结局对其进行划分，只能利用该变量本身的数据进行划分，此时就可以采用聚类分析（cluster analysis）

聚类分析的算法有：

层次法； K-means法； SOM法；概率模型法

层次分析法需要自己判断聚成几类合适；

K-means法通过寻找每一类的中心点，保证该类中的点都距离自己的中心点较近，而其它类中的点距离自己的中心点较远。

聚类分析思想： 基于距离来划分，两个点距离近就划分到一类，两个点距离远就划分为另外一类。

有的聚类算法需要在划分前先指定 拟划分 的类别数（K-means法和SOM法），有的则不需要（层次分析法）。

聚类方法总的原则：保证划分后各类别之间的距离尽量远，类别内的距离尽量近。

PS：聚类分析完全是根据数据本身来划分，不涉及任何专业的知识，但有的时候会导致划分的类别和专业相悖。所以需要谨慎~！！！！

3.1.6 虚拟变量和哑变量

Dummy variable 即假的变量，不是真实的变量。就是把原来的一个多分类变量转换为多个二分类变量，总的来说就是：如果多分类变量有k个类别，则可以转换为k-1个二分类变量。

分类结果的解释一本都要有参照类别。当我们把k个类别的多分类变量转换为k-1个二分类变量后，每个二分类变量表示相对参照类的大小。

例如，多分类变量x用1，2，3，4表示，我们设定以1为参照，那么生成的3个虚拟变量分布表示2和1相比的大小，3和1相比的大小，4和1相比的大小。

通过生成虚拟变量，我们就把原来的一个系数变成了多个系数，这个系数更加详细地说明了自变量和因变量之间地关系，在自变量和因变量呈非线性关系地时候，这很重要。因为在使用线性回归和logistic回归的时候，实际上我们就已经默认了自变量和因变量之间呈现线性关系，我们就已经不可能找出非线性的关系了。

《白话统计》笔记 v.1