學習統計學必須掌握的幾個核心概念

作者介紹

@大師兄

混跡數據江湖十餘載。

主要負責大數據商業變現和產品運營工作。

在終極的分析中,一切知識都是歷史在抽象的意義下,一切科學都是數學在理性的基礎上,所有的判斷都是統計學” 

C.R.勞 統計與真理——怎樣運用偶然性

本科學信息與計算科學專業,但基本上也算是個應用數學專業,所以很早就接觸了統計。最開始學的是數理統計,後來又學習了多元統計分析。研究生又讀了一個統計學專業,走上工作崗位,又做了數據分析相關的工作,一做就是10年。從一開始的茫然不知所措,到逐漸喜歡統計,到現在日常工作中離不開統計。也許你真正用統計學思維解決問題的時候,你纔會真正愛上它。

統計學不是簡單的分析工具,是一種思考問題的思維方式,讓我們客觀地看待事物,冷靜地分析情況,讓我們避免人云亦云,減少錯誤地判斷。上篇,我提到過迴歸分析的道與術,繼續拿回歸分析說說。我分析數據這麼多年,從中得出的經驗,就是:太完美的數據根本不可能有,即使有往往反而有問題,因爲很有可能是經過改編過的。折射到我們人生,也恰恰說明人生本就是不完美。也許你會感嘆自己的人生不如意,這個時候你可以考慮一下回歸的含義,也許會有一種新的體會。當我們從生活的角度去重新體會“迴歸”的含義時,你會發現,其實這正是我們古代哲人所說的“物極必反”的真諦。當我們無論我們的境況如何,都應該想到,我們最終將會“迴歸”平常,迴歸自然。

再簡單說說因子分析,它則是體現了一種抓主要問題的思想。當很多問題擺在我們面前的時候,這個時候假如你想要研究所有的問題,往往抓不住事物的本質,容易喪失方向。應該像因子分析一樣,抓住這些特徵背後的關鍵因子是什麼,抓住這一點,一切問題就迎刃而解。

當前網絡盛行的時代,各種信息紛繁複雜,也許讓你眼花繚亂,根本分不清真相。其實我最想說的就是,無論現在的信息多麼膨脹,我們都要保持一個清醒的頭腦。片面的信息就像單因素分析,未必準確,往往會混雜了一些其它因素的影響,這時候你是很難做出判斷的。如果你根據單因素做出了判斷,結果很難說到底是否準確,只有多收集信息,利用多因素分析,排除混雜因素,這時候你得到的結論纔是可靠的。

什麼是統計學

什麼是統計學?統計學解決什麼問題?統計學是數學的分支嗎?很多問題,一直是爭論不休的。但是,根據統計學的發展歷史來看,唯一可以確定的,統計學的生命源泉來自於外部,主要目的是解決現實中碰到的,帶有不確定性因素的問題。只要我們面臨不確定性,從實驗設計、數據收集、收集分析,以及結果的解釋,都是統計學需要解決的問題的。

所以說,統計是處理數據的一門科學。人們給統計學下的定義很多,比如“統計學是收集、分析、表述和解釋數據的科學”;“統計是一組方法,用來設計實驗、獲得數據,然後在這些數據的基礎上組織、概況、演示、分析、解釋和得出結論”。綜合地說,統計學是收集、處理、分析、解釋數據並從數據中得出結論的科學。

統計學是關於數據的科學,它所提供的是一套有關數據收集、處理、分析、解釋並從數據中得出結論的方法,統計研究的是來自各領域的數據。數據收集也就是取得統計數據;數據處理是將數據用圖表等形式展示出來;數據分析則是選擇適當的統計方法研究數據,並從數據中提取有用信息進而得出結論。

數據分析所用的方法可分爲描述統計方法和推斷統計方法。描述統計研究的是數據收集、處理、彙總、圖表描述、概括與分析等統計方法。推斷統計是研究如何利用樣本數據推斷總體特徵的統計方法。比如,要了解一個地區的人口特徵,不可能對每個人的特徵進行一一測量;對產品的質量進行檢驗往往是破壞性的,也不可能對每個產品進行測量。這就需要抽取部分個體即樣本進行測量,然後根據獲得的樣本數據對所研究的總體特徵進行推斷,這就是統計推斷要解決的問題。

總體與樣本

統計研究的目標是總體

什麼是總體?它是包含所有研究的全部個體(數據)的集合,它通常由所研究的一些個體組成,比如由多個企業構成的集合,多個居民戶構成的集合,多個人構成的集合,等等。

實際研究的內容卻是樣本

什麼是樣本?它是從總體中抽取的一部分元素的集合,構成樣本的元素的數目稱爲樣本量。抽樣的目的是根據樣本提供的信息推斷總體的特徵。比如,從一批燈泡中隨機抽取100個,這100個燈泡就構成了一個樣本,然後就根據這100個燈泡的平均使用壽命去推斷這批燈泡的平均使用壽命。

再舉個通俗的例子來理解總體和樣本。爲了瞭解某區八年級學生的身高,有關部門從八年級中抽200名學生測量他們的身高,然後根據這一部分學生的身高去估計某區所有八年級學生的平均身高。

總體:某區八年級學生每人身高的全體

個體:每名學生的身高

樣本:被抽取的200名學生的身高

樣本容量:200

參數與統計量

總體與樣本,參數與統計量,是一一對應的關係,通常叫總體參數和樣本統計量。參數是用來描述總體特徵的概括性的數字度量,它是研究者想要了解總體的某種特徵值。研究者所關心的參數通常有總體平均數、總體標準差、總體比例等。

由於總體數據通常是不知道的,所以參數是一個未知的常數。比如,我們不知道某一地區所有人口的平均年齡,不知道一個城市所有家庭的收入的差異,不知道一批產品的合格率,等等。正因爲如此,所有才需要進行抽樣,根據樣本計算出某些值去估計總體參數。

統計量是用來描述樣本特徵的概括性數字度量。它是根據樣本數據計算出來的一個量,由於抽樣的隨機的,因此統計量是樣本的函數。研究者所關心的統計量主要有平均數、樣本標準差、樣本比例等。由於樣本是已經抽出來的,所以統計量總是知道的,抽樣的目的就是要根據樣本統計量去估計總體參數。

除了樣本均值、樣本比例、樣本方差這類統計量,還有一些是爲統計分析的需要而構造出來的統計量,比如用於統計檢驗的z統計量、t統計量、卡方統計量、F統計量等等,以後會一一介紹。

數據類型與變量

統計數據是對現象進行測量的結果。比如,對經濟活動總量的測量可以得到國內生產總值(GDP)數據;對股票價格變動水平的測量可以得到股票價格指數的數據;對人口性別的測量可以得到男女分佈比例的數據。

按照所有的計量尺度不同,可以將統計數據分爲分類數據、順序數據和數值型數據。分類數據,是隻能歸於某一類別的非數字型數據,它是對事物進行分類的結果,數據表現爲類別,是用文字來表述的。比如,人口按照性別來分爲男和女兩類;企業按行業來分可以分爲醫藥企業、家電企業、紡織品企業等。爲了方便處理,對於分類數據可以用數字代碼來標識各個類別,比如,用1表示男性,0表示女性。

順序數據是隻能歸於某一有序類別的非數字型數據。順序數據雖然也是類別,但這些類別是有序的,比如將產品分爲一等品、二等品、三等品、次品等;考試成績可以分爲優、良、中、及格以及不及格等。同樣,順序數據也可以用數字代碼來標識,比如,1——優,2——良,3——中,4——及格,5——不及格。

數值型數據,是按數字尺度測量的觀察值,其結果表現爲具體的數值。現實中所處理的大多數都是數值型數據。

按照統計學數據的收集方法,可以將其分爲觀測數據和實驗數據。觀測數據是通過調查或者觀測而收集到的數據,這類數據是在沒有對事物人爲控制的條件下得到的。而實驗數據則是在實驗中控制實驗對象而收集到的數據。社會經濟現象的數據大部分都是觀測數據,而自然科學領域的數據大部分是實驗數據。

按照被描述的現象與時間的關係,可以將統計數據分爲截面數據和時間序列數據。截面數據,是在相同的時間點上收集的數據,這些數據通常是在不同的空間上獲取的。比如全國31個省份的GDP數據。時間序列數據,是在不同時間點收集到的數據,這類數據是按時間順序收集到的,用於所描述現象隨時間變化的情況。比如某省份2010年到2019年的GDP數據。

變量是說明現象某種特徵的概念,比如“商品銷售額”、“受教育程度”和“產品質量等級”等都是變量。變量的具體取值成爲變量值,比如商品銷售額可以是20萬元、30萬元等,這些數字就是變量值。根據數據的類型,可以分爲分類變量、順序變量和數值型變量。而數值型變量,又可以分爲離散型變量和連續型變量,離散型變量是隻能取有限個值,而且其取值都是整數,比如企業個數,產品數量等都是離散型變量。年齡、溫度等都是連續型變量。

熱門文章

直戳淚點!數據從業者權威嘲諷指南!

數據分析師做成了提數工程師,該如何破局?

全棧型VS專精型,團隊到底需要什麼樣的人?

數據驅動業務,比技術更重要的是思維的轉變

最近面了十多個數據分析師,聊一聊我發現的一些問題

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章