統計學裏的變量(Variable)

※ 版權所有,轉載請聯繫作者 ※

從前在學習數學的時候,有例如2X+4Y=20的式子,在這個式子中,2和4是常量(Constant),X和Y是變量,顧名思義,X和Y是不確定的變化的量值。

在數學中,上面這個式子,可能是三個串成一條直線的珠子a、b、c,b可以左右滑動在中間,a和c在兩邊固定,2X表示ab的距離,4Y表示bc的距離,ac的距離是20,於是如果X=2,Y=4;X=3,Y=3,X和Y不是確定的值。在物理學中變量可能是速度、時間、距離、溫度等等;在醫學中變量可能是藥物的有效作用時間,藥品的價格,患者的年齡等;在社會學中變量可能是工資、利潤、成本、年齡等;在教育學中變量可能是學生的學習成績、毅力、智力、情商、創造力等;在心理學中變量可能是心理疾病程度、領導力等。所以很多時候還用Xi 和Yi 來表示第i個變量X或Y的值。

1. 變量的分類(Type of variable)

總而言之,這些變量是一些數值,可以數數或者測量出來,所以這些變量是量化的定量變量(或數值變量,quantitative or numeric variable)但是還有一些如性別、民族、膚色、喜歡與否、喜歡程度等進行分類的定性的變量(或分類變量/屬性變量,qualitative, categorical or attribute variable),比如男和女,漢族、蒙古族等,白色膚色、黃色膚色、黑色膚色等。

變量的概念在統計學裏,變量也就是就是一種可以進行測量的數據條目(data item),對於變量的定義在統計學裏非常重要,尤其是在進行SPSS分析的時候,需要明確定義一個變量的性質,否則將會引起歧義。其實當你打開SPSS軟件時,數據錄入界面上面就顯示的全部是變量,如圖黃色高亮的部分就是變量:

就在上面所舉的例子裏面,可以發現,年齡是可以數的,民族和性別是可以分類的,溫度是可以測量的,工資是可以計算的。也就是說這麼多的變量也是各有不同的。像可以對數量多少(how many or how much)進行測量的稱爲定量變量,進行分類的稱爲定性變量。對於定量變量的數值進行加減求平均的計算是有意義的,但是對於定量變量進行加減求平均其實是沒有意義的,如漢族乘以蒙古族並不能得出什麼,白色膚色減去黃色膚色也不能得出什麼。


(1)在定性變量,存在着一些規律,如例子:性別、種族、膚色、血型、顏色這種類型的變量的信息之間沒有等級區分,如並不能說性別男大於女,也不能給種族拍個優先順序,所以這些變量是無序的,只作爲分類,因此只給不同的類型取一個名字,所以這類變量稱爲無序變量(unordered-qualitative variable)。因此總結一下,無序變量是沒有順序、沒有等級劃分,但是能夠被分類(classified)和計數(counted)的一種變量
與命名變量對比的就是有序變量(ordered-qualitative bariable),這類變量可以進行等級劃分,進行排序比較,比如喜歡的程度可以分爲高中低,高中的年級可以是高一、高二、高三,學歷可以分爲小學、中學、高中、大學、研究生等。但是卻不能知道每個等級之間具體相差的是多少,比如好與更好之間的差。這也是定性變量的一個性質。

(2)在定量變量中也存在着一些規律,有些變量是離散的不能夠連續的,稱爲離散變量(或非連續性變量,discrete or uncontinuous variable),這這類型的變量只能取到的是某些特定的值,而且這些值之間存在着一些“間隔/間隙”。比如,休假的日期只可以是4天、5天、7天等,一天每小時到達北京火車站的火車的數量等。

不過,有些變量是連續變量(continuous variable,是在給定的範圍內,可以取到任何的數值的變量,其實也就是可以有小數點的變量,離散變量中,不能說每小時到達2.3個火車,但是比如體重可以是50.3kg,每小時到達火車的數量只可能是2個或者三個,這是離散變量,但是體重可能是50.3kg,也可能是50.33kg,這個體重就是一個連續變量。連續變量通常四捨五入取小數點後三位。

2. 變量的測量尺度(Measure of variable)

在介紹變量的測量尺度之前,先簡單的介紹一下測量(measurement)。測量就是將數分配給一個對象(object)或者事件(event)的特徵(characteristic),這樣可以使其與其他對象或特徵進行比較。也就是用數值對事物或其特徵進行比較。尺度(scale)就是爲了測量而建立的準則。

在統計學中,變量的測量尺度分有以下四個。

(1)定類尺度/明目尺度(nominal scale)

定類尺度是根據事物的特點對其進行分類的一種尺度,賦予定類尺度的數值只是爲了區分種類,沒有順序大小而言,如在SPSS中可以將性別分爲男女,男賦值1,女賦值2,雖然2>1,但並不代表女>男。同時在這裏數值1與2也不可以相加,因爲男+女並沒有任何的意義。因此定類尺度並不能夠進行數學計算。這樣的例子還有民族、血型、顏色、膚色、電話號碼等。

(2)順序尺度/等級尺度(ordinal scale)

順序尺度是給事物區分等級的一種尺度,是一種分類(即包含定類尺度的特點)。比如喜歡的程度有喜歡、比較喜歡、非常喜歡,學歷有小學、初中、高中、大學、研究生,年級有一、二、三等。賦予的數值也是爲了區分其等級,如學歷的小學是1、初中是2、高中是3、大學是4、研究生是5,但是卻不能將其相加,因爲不能說小學(1)+初中(2)就等於高中(3)。等級之間存在差別,但是具體差異的程度卻不是明確的,比如喜歡的程度中喜歡是1、比較喜歡是2、非常喜歡是3,卻不能說非常喜歡(3)減去比較喜歡(2)就是喜歡(1)。因此順序尺度的數值也是不可以進行數學計算的。

(3)間隔尺度/等距尺度(interval scale)

間隔尺度是指事物的數值之間具有一定的間隔,這個間隔是等距的,因此也被成爲是等距尺度。比如華氏溫度(不是溫度差)、時間(不是小時),這樣的數據是連續的,同時沒有實際意義的0點。因爲0°C並不代表沒有溫度,00:00也不代表是沒有的時間。不過1°C、2°C、3°C、4°C...的間隔都是1°C;時間也是比如1:00、2:00、3:00間隔是1個小時。間隔尺度的對象有順序、可以進行比較,也就是具有定類尺度和順序尺度的所有特點。比如3點比2點晚,同時晚了1個小時(3-2=1);2017年比2018年早,而且早一年(2018-2017=1)。這類尺度研究的事物只能對其間隔進行計算,也就是說只可進行加減計算,卻不能進行乘除計算,比如1點*2點並沒有什麼意義,2018年/2017年也沒有任何意義。

(4)比例尺度/定比尺度(ratio scale)

有這樣一類數據,連續的,同時存在類別、順序、可以比較大小、有差異、可以相加、可以計算比例、也可以相乘,而且0點具有實際的意義,比如收入(income),0就代表沒有任何收入,一個公司部門4個員工的月收入是A:2000、B:5000、C:8000、D:10000,B比A的月收入多3000,C的月收入是A的4倍,D的月收入是B的2倍。這樣的數據還有,絕對溫度,利潤等。


3. SPSS軟件

在SPSS分析軟件中,如下圖所示,“Type”列是選擇變量類型(Variable Type)的地方,右面“Measure”列選的是測量尺度(Measure scale)的地方,因爲SPSS一般是對數值進行處理,因此一般變量的類型(Type)會選擇“Numeric“【僅在於說明是一般情況


Data->Define variable propertities就可以進行更詳細的編輯,同時能夠更具體看到SPSS中是如何定義尺度的。





參考文獻:

Lind, D. A., Marchal, M. G. & Wathen S. A. (2011). Statistical Techniques in Business & Economics (15th ed.). McGraw-Hill/Irwin. 

성태제.(2011). 현재 기초통계학-이해와 적용(6판). 학지사.

“Measurement,”n.d., para 1.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章