數據分析系列 4/32 | 數據分析必知統計學

對於想入門學習數據分析的同學來說,大家基本都知道數據分析指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。那我們今天就來聊一下統計的相關內容。

 

PART

01

   統計及其應用領域

    

1)什麼是統計學

統計學(statistics)是收集、處理、分析、解釋數據並從數據中得出結論的科學。

 

數據分析所用的方法可分爲描述統計方法和推斷統計方法。描述統計(descriptivestatistics)研究的是數據收集、處理彙總、圖標描述、概括與分析等統計方法。推斷統計(inferentialstatistics)是研究如何利用樣本數據來推斷總體特徵的統計方法。

 

2)統計的應用領域

統計方法是適用於所有學科領域的通用數據分析方法,只要有數據的地方就會用到統計方法。統計無處不在,如市場研究、產品質量管理(統計合格產品)、財務分析、經濟預測、人力資源管理、人口統計等等。

站日常流量數據的重要指標。PV可重複累計,以用戶訪問網站作爲統計依據,用戶每刷新一次即重新計算一次。

 

PART

02

   統計數據的分類

 

統計數據是對現象進行測量的結果。統計數據有許多分類,下圖展示了統計數據的類型,供大家參考學習。這裏沒有詳細列舉,後面用到會用實例來驗證。

PART

03

   統計學中的基本概念

 

統計學中的概念很多,其中有幾個是經常要用到的,這裏統一說一下,至於沒有提到的概念,後面用到的時候會做詳細說明。

 

總體和樣本

總體(population):是包含所研究的全部個體(數據)的集合,通常由所研究的一些個體組成。但是需要註明一點:總體分爲有限總體(本校本年級學生)和無限總體(所有學生)。

樣本(sample):是從總體中抽取的一部分元素的集合,構成樣本的元素數目稱爲樣本量。

 

參數和統計量

參數(parameter):用於描述總體特徵的指標;

統計量(statistic):用於描述樣本特徵的指標;

 

變量

變量(variable)是說明現象某種特徵的概念,特點是從一次觀測到下一次觀測結果會呈現出差別或變化。

變量的三種類型:分類變量、順序變量、數值型變量。

 

誤差

誤差:觀察值與真知之差。即我們通過一次試驗得到的結果與事件真實結果之間的差值。誤差根據其產生的原因,分爲四種:系統誤差(systematic error)、隨機誤差(random error)、抽樣誤差(sampling error)、過失誤差(gross error)。

 

概率和頻率

概率(P):用於反映某一事物發生可能性大小的一種量度。一般用大寫的斜體P表示。

 

我們根據食物發生概率的大小,把事件分爲3類:P=1爲必然事件,發生率爲100%;P=0爲不可能事件,發生率爲0;0<P<1爲偶然事件,在未發生時即可能發生,又可能不發生。其中P小於等於0.05爲小概率事件,應用意義爲在一次試驗或研究過程中不可能發生。

 

頻率(f):是指我們進行了N次試驗,其中一個事件出現的次數m與總的試驗次數N的比值。

 

問題是:我們到底如何能夠得到某一事件發生的概率呢,比如說誰能夠告訴我一個半截粉筆從講臺上掉下摔斷的概率P=?。我們至今的科學發展也沒有辦法通過公式去計算該值。那我們是怎麼做的呢?有句話叫做“有些事情越想越煩,做起來卻極其簡單”。我們只需要那兩盒同樣的粉筆進行重複摔就可以了,如果總共100支粉筆,斷了98只,那斷的頻率就等於f=98/100=0.98。而統計學上證實,當某事件發生次數較多時,頻率就會收斂於概率。意即f=P。因此,其實我們就是通過頻率去估計概率的。

 

歡迎關注微信公衆號,訪問更多精彩:數據之魅

如需轉載,請聯繫授權,謝謝合作。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章