統計數據類型

數據是指不同的信息片段。你可能認爲數據只是表格上的簡單數字,但是數據的形式多種多樣。從文本到視頻到電子表格,從數據庫到圖片再到音頻視頻,而且肯定還漏了很多其他的形式。

存在的數據類型有:


換個角度看

要分解我們的數據類型,主要有兩大塊:
數值分類
數值進一步分爲連續離散
分類數據可以分爲定序定類

數值與分類

其中一些可能有點棘手 —— 舉個例子,郵政編碼是一個數字,但它們並非數值變量。如果我們將兩個郵政編碼加在一起,並不會從得到的新值中獲得任何有用的信息。因此,這是一個分類變量。

身高、年齡、書中的頁數和年收入採用的值我們可以進行加、減和執行其他運算,來獲得有用的見解。因此,這些是數值數據。

性別、字母成績等級、早餐類型、婚姻狀態和郵政編碼可以視爲一組物品或個人的標籤。因此,它們是分類數據。

連續和離散

要區分我們的數據是連續還是離散的,要看我們是否能將數據分割成更小的單元。想想時間 —— 我們可以用年、月、日、小時、分鐘或秒來衡量一個事件,甚至是在秒級,我們知道仍然有更小的單位可以用來衡量時間。因此,我們知道此數據類型爲連續的。身高、年齡和收入都是連續數據的例子。或者,我們知道書中的頁數、咖啡店外的狗數量或院子裏的樹爲離散數據。我們可不想將狗一分爲二。

定序與定類

在看定類變量時,我們發現性別婚姻狀態郵政編碼早餐食品定類變量,這種類型的數據沒有相關的順序排列。無論你早餐吃麥片粥、吐司、雞蛋還是隻喝咖啡,它並沒有相關的排序。

相反,字母成績等級調查評級作爲定序數據具有關聯的排序。如果獲得 A,它高於 A-。A- 的排名高於 B+,以此類推……定序變量在評級量表上很常見。在很多情況下,我們將這些定序變量變爲數字,這樣可以更容易地進行分析。

理解數據類型也可以幫助我們創建可視化來解釋數據

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章