CDA数据分析师培训笔记(三)20151114-20151115

(续)

关于平均抽样误差

       这个概念很重要,与总体的方差成正比,与样本数的平方根成反比。容易解释但是推导不会。

       样本平均数的分布服从 以总体均数为均数,平均抽样误差为方差的分布。我们将样本均数计算Z统计量,它就服从一个正太分布,用样本的方差代替总体方差,样本量已知,样本均数已知,在一定的概率度的情况下,我们就能反推总体均数的区间估计。

关于方差分析

       对于一个分类变量和一个连续变量,如果分类变量是两分类的,我们用t检验,比较特殊的就是配对数据的t检验(能够消除很多因素的影响),还有一种的t检验就是没有分类变量,直接是连续变量与某一数值比较。

       当分类变量是多分类的时候,用方差分析,统计量是 组间平方和/组内平方和,我们的原假设是组间无差异,均值相等,统计量越小,P值就越大。

       不管是t检验还是方差分析,正态性检验都是必须的,这个功能在SPSS中是在描述性统计-探索中,而不是在比较均值,方差分析那块,这也能看出数据分析正态性的重要性。

      满足正态性的前提下,对方差齐性的要求倒是不太严格  ,所以一般都有方差齐性或者不齐性的结果。比较均值,假定方差齐性一般用LSD,比较好看的结果界面还是SNK发,假定方差不齐一般用T2法(老罗的T2吗 哈哈)

      对於单因素的方差分析,实际上就是在两分类数据中多了一个或者多个水平,所以在SPSS中,单因素方差分析和t检验在一起。

      多因素的方差分析,协方差分析,因素之间的交互了解,但是没有深入研究过。

关于回归分析

      数据的分类里面,分类数据,定序数据,和定量数据,他们能够提供的有价值的信息越来越多。一个分类数据和一个连续性数据我们用方差分析或者t检验,如果是两个定量数据,这样的数据我们就更喜欢了。方差分析只能表示总体有无差异,差异多大。而回归分析直接能计算两个变量的相关程度,由一个变量去预测另一个变量。

       相关系数一般分0.8 0.5 0.3 这几个区间。一般在0.5~0.8区间就很不错了。

      我们常研究的线性相关分析,计算皮尔逊相关系数。曲线,时间序列这个都不了解。

      对于回归分析里面,异常值处理,残差检验,以及回归分析里面统计量计算,有点类似于方差分析的统计量计算,理解的还不透彻,还需要继续研究。

      关于自由度

      不是太理解:已知样本均值,样本量为n,自由度为n-1

      虚拟变量

      如果回归分析里面一定要加入分类变量,就用虚拟变量替代,n个分类,虚拟变量就是n-1

      如果自变量连续变量,因变量是分类变量,就用logistic分析(还没有研究过)

     (完)

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章