[统计学笔记] 统计学中的相关关系和三大相关系数

统计学中的相关关系和三大相关系数

相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量。

由于研究对象的不同,相关系数有如下几种定义方式。

简单相关系数:又叫相关系数或线性相关系数,一般用字母r 表示,用来度量两个变量间的线性关系。

复相关系数:又叫多重相关系数。复相关是指因变量与多个自变量之间的相关关系。例如,某种商品的季节性需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。

典型相关系数:是先对原来各组变量进行主成分分析,得到新的线性关系的综合指标,再通过综合指标之间的线性相关系数来研究原各组变量间相关关系。

相关分析就是对两个变量之间线性关系的描述与度量,它要解决的问题包括:

变量之间是否存在关系?
如果存在关系,他们之间是什么样的关系?
变量之间的关系强度如何?
样本所反映的变量之间的关系能否代表总体变量之间的关系?
为了解决这些问题,在进行相关分析时,对总体主要有两个假定:

第一:两个变量是线性相关的;

第二:两个变量都是随机变量;

确定相关关系的存在,相关关系呈现的形态和方向,相关关系的密切程度。其主要方法是绘制相关图表和计算相关系数。
1)相关表
编制相关表前首先要通过实际调查取得一系列成对的标志值资料作为相关分析的原始数据。
相关表的分类:简单相关表和分组相关表。单变量分组相关表:自变量分组并计算次数,而对应的因变量不分组,只计算其平均值;该表特点:使冗长的资料简化,能够更清晰地反映出两变量之间相关关系。双变量分组相关表:自变量和因变量都进行分组而制成的相关表,这种表形似棋盘,故又称棋盘式相关表。
2)相关图
利用直角座标系第一象限,把自变量置于横轴上,因变量置于纵轴上,而将两变量相对应的变量值用座标点形式描绘出来,用以表明相关点分布状况的图形。相关图被形象地称为相关散点图。因素标志分了组,结果标志表现为组平均数,所绘制的相关图就是一条折线,这种折线又叫相关曲线。
3)相关系数
1、相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。
2、确定相关关系的数学表达式。
3、确定因变量估计值误差的程度。

在进行相关分析时,首先需要绘制散点图来判断变量之间的关系形态,如果是线性关系,则可以利用相关系数来测度两个变量之间的关系强度,然后对相关系数进行显著性检验,以判断样本所反映的关系是否代表两个变量总体上的关系。

根据散点图,当自变量取某一值时,因变量对应为一概率分布,如果对于所有的自变量取值的概率分布都相同,则说明因变量和自变量是没有相关关系的。反之,如果,自变量的取值不同,因变量的分布也不同,则说明两者是存在相关关系的。
 

通过散点图可以判断两个变量之间有无相关关系,并对变量之间的关系形态作出大致的描述,但散点图不能准确反映变量之间的关系强度。因此,为准确度量两个变量之间的关系强度,需要计算相关系数。

相关系数(correlation coefficient)是根据样本数据计算的度量两个变量之间线性关系强度的统计量。

若相关系数是根据总体全部数据计算的,称为总体相关系数,记为:\rho

若是根据样本数据计算的,则称为样本相关系数,记为:r

样本相关系数的计算公式为:

r = \frac{n\sum xy - \sum x\sum y}{\sqrt{n\sum x^{2}-\left ( \sum x \right )^{2}}\times \sqrt{n\sum y^{2}-\left ( \sum y \right )^{2}}}

按上述公式计算的相关系数也称为线性相关系数(Linear Correlation Coefficient),或称为 Pearson 相关系数(Pearson's Correlation Coefficient)

一般情况下,总体相关系数  是未知的,通常将样本相关系数  作为  的近似估计值。

但是由于  是根据样本数据计算出来的,因此会受到抽样波动的影响。由于抽取的样本不同, 的取值也就不同,因此  是一个随机变量。能够根据样本相关系数说明总体的相关程度呢?这就需要考虑样本相关系数的可靠性,也就是进行显著性检验。

相关分析的目的:测度变量之间的关系强度。

使用的工具:相关系数


Pearson相关系数

Pearson相关系数(Pearson CorrelationCoefficient)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。

如衡量国民收入和居民储蓄存款、身高和体重、高中成绩和高考成绩等变量间的线性相关关系。当两个变量都是正态连续变量,而且两者之间呈线性关系时,表现这两个变量之间相关程度用积差相关系数,主要有Pearson简单相关系数。

适用条件:

  1. 样本容量大于等于30,这样才能保证计算的数据具有代表性,计算出的积差相关系数可以有效说明两个变量的相关关系。
  2. 两个变量的所属总体都呈正态分布,至少是接近正态的单峰分布。
  3. 两个变量都是由测量所得的连续性数据。
  4. 两个变量间的相关是线性相关。
  5. 排除共变因素的影响。
  6. 计算连续变量或是等间距测度的变量间的相关分析。

Spearman相关系数

在统计学中, 以查尔斯·斯皮尔曼命名的斯皮尔曼等级相关系数,即spearman相关系数。经常用希腊字母ρ表示。 它是衡量两个变量的依赖性的 非参数 指标。 它利用单调方程评价两个统计变量的相关性。 如果数据中没有重复值, 并且当两个变量完全单调相关时,斯皮尔曼相关系数则为+1或−1。

适用条件:

  1. 只有两个变量,且都为顺序变量(等级变量),或一列数据是顺序变量数据,另一列数据是连续变量数据。
  2. 适用于描述称名数据和顺序数据的相关情况。
  3. 两个连续变量观测的数据,至少有一列数据是由非测量方法粗略评估得到的。如使用作品分析法,评价者只能在一定标准基础上,依靠自己的经验进行粗略评估。
  4. 从Spearman等级相关的使用条件可以看出,其不受样本大小、变量分布形态,数据是否具有连续性的条件限制,所以当数据不满足Pearson积差相关的使用条件时,可以使用Spearman等级相关。但Spearman等级相关需将连续性数据转换为顺序数据,会遗漏数据原有信息,没有积差相关的准确度高。所以,当数据符合积差相关的使用条件时,不要使用等级相关进行计算。

斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。对于样本容量为n的样本,n个原始数据被转换成等级数据,相关系数ρ为:

 

实际应用中,变量间的连结是无关紧要的,于是可以通过简单的步骤计算ρ。被观测的两个变量的等级的差值,则ρ为

斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的,所以又称为“等级差数法”。

斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。

斯皮尔曼等级相关系数是反映两组变量之间联系的密切程度,它和相关系数 r 一样,取值在-1到+1之间,所不同的是它是建立在等级的基础上计算的。

现结合一个例子来加以说明,某工厂对工人的业务进行了一次考试,欲研究考试成绩与每月产量之间是否有联系,若随机抽选了一个样本,其考试成绩和产量数字如下表:

斯皮尔曼等级相关系数

从表中的数字可以看出,工人的考试成绩愈高其产量也愈高,二者之间的联系程度是很一致的,但是相关系数r=0.676 并不算太高,这是由于它们之间的关系并不是线性的,如果分别按考试成绩和产量高低变换成等级(见上表第3、4列),则可以计算它们之间的等级相关系数为1。计算等级相关系数可以将数据变换成等级以后用原有的相关系数公式计算,也可以将算出每一对样本的等级之差di,然后用下列公式计算:

  \rho=1-\frac{6\sum d_i^2}{n^3-n}

在所举的例子中由于等级完全一致,所有的di = 0,所以r=1。等级相关系数和通常的相关系数一样,它与样本的容量有关,尤其是在样本容量比较小的情况下,其变异程度较大,等级相关系数的显著性检验与普通的相关系数的显著性检验相同。

Kendall秩相关系数 

Kendall(肯德尔)系数的定义:n个同类的统计对象按特定属性排序,其他属性通常是乱序的。同序对(concordant pairs)和异序对(discordant pairs)之差与总对数(n*(n-1)/2)的比值定义为Kendall(肯德尔)系数。

如果两个排名之间的一致性是完美的(即两个排名相同),则系数的值为1。

如果两个排名之间的分歧是完美的(即,一个排名与另一个排名相反),则系数的值为-1。

对于所有其他安排,值介于-1和1之间,值的增加意味着排名之间的一致性增加。如果排名完全独立,则系数的平均值为0。

定义了Kendall-tau系数:

\tau = \frac{2P}{\frac{1}{2}{n(n-1)}} - 1 = \frac{4P}{n(n-1)} - 1

其中n是项目数,P是在所有项目中,在给定项目之后按两个排名排列的项目数之和。

P也可以解释为协和对的个数。τ定义中的分母可以解释为项对的总数。因此,P的高值意味着大多数配对是一致的,这表明这两个排名是一致的。请注意,捆绑的一对不被视为和谐或不和谐。如果有大量的联系,则应相应地调整对的总数(在τ表达式的分母中)。

假设我们按身高和体重给一组8个人排序,其中a个人最高,第三重,依此类推:

Person A B C D E F G H
Rank by Height 1 2 3 4 5 6 7 8
Rank by Weight 3 4 1 2 5 7 8 6

我们看到这两个排名之间存在着某种关联,但这种关联远不是完美的。我们可以用Kendall-tau系数来客观地衡量对应程度。

请注意,在上面的权重排序中,第一个条目3的右边还有七个其他元素(4,1,2,5,7,8,6)。在其他排名中,有多少个元素也在3的右边?

在身高排名中,3右边的元素是:4,5,6,7,8,所以在两个排名中,3右边的元素是5(它们是4,5,6,7,8),所以这个条目对P的贡献是5。

转到第二个条目4,我们看到它右边有六个元素。在这些元素中,在其他排名中也在4的右边的元素是4(5,6,7,8),所以对P的贡献是4。继续这样,我们发现

P = 5 + 4 + 5 + 4 + 3 + 1 + 0 + 0 = 22.

因此: \tau= \frac{88}{56}-1 = \frac{44}{28}-1 = 0.57.

这一结果表明,正如预期的那样,各排行榜之间的一致性很强。

Kendall相关系数是对两个有序变量或两个秩变量之间相关程度的度量统计量,因此也属于非参数统计范畴。Spearman区别在于某一比较数据需要有序,在有序情况下计算速度比Spearman快。

  1. 用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。
  2. 对相关的有序变量进行非参数相关检验。
  3. 计算Kendall秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。
  4. 若不恰当用了Kendall 等级相关分析则可能得出相关系数偏小的结论。

什么是等级相关系数

在实际应用中,有时获得的原始资料没有具体的数据表现,只能用等级来描述某种现象,要分析现象之间的相关关系,就只能用等级相关系数。

等级相关系数亦称为“秩相关系数”,是反映等级相关程度的统计分析指标。常用的等级相关分析方法有Spearman等级相关和Kendall等级相关等。

等级相关系数的计算步骤

1、把数量标志和品质标志的具体表现按等级次序编号。

2、按顺序求出两个标志的每对等级编号的差。

3、按下式计算相关系数:

r_s=1-\frac{6\sum d_i^2}{n(n^2-1)}

其中:等级相关系数记为rsdi为两变量每一对样本的等级之差,n为样本容量。

等级相关系数与相关系数一样,取值-1到+1之间,rs为正表示正相关,rs为负表示负相关,rs等于零为零相关,区别是它是建立在等级的基础上计算的,较适用于反映序列变量的相关。


Pearson, Kendall和Spearman三种相关分析方法有什么异同

两个连续变量间呈线性相关时,使用Pearson积差相关系数,不满足积差相关分析的适用条件时,使用Spearman秩相关系数来描述。

Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。Pearson相关系数的计算公式可以完全套用Spearman相关系数计算公式,但公式中的x和y用相应的秩次代替即可。

当两变量不符合双变量正态分布的假设时,需用Spearman秩相关来描述变量间的相互变化关系。

Kendall's tau-b等级相关系数:用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验;取值范围在-1-1之间,此检验适合于正方形表格;计算积距pearson相关系数,连续性变量才可采用;计算Spearman秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据; 计算Kendall秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。

计算相关系数:当资料不服从双变量正态分布或总体分布未知,或原始数据用等级表示时,宜用 spearman或kendall相关。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章