Python大數據分析(三):大數據統計分析技術

(一)概率論數理統計中的概念

在這裏插入圖片描述

(1)隨機分佈

隨機變量(random variable) 表示隨機試驗各種結果的實值單值函數。隨機事件不論與數量是否直接有關,都可以數量化,即都能用數量化的方式表達。

按照隨機變量可能取得的值,可以把它們分爲兩種基本類型

  • 1、離散型隨機變量,即在一定區間內變量取值爲有限個,或數值可以一一列舉出來。例如某地區某年人口的出生數、死亡數,某藥治療某病病人的有效數、無效數等。
  • 2、連續型隨機變量,即在一定區間內變量取值有無限個,或數值無法一一列舉出來。例如某地區男性健康成人的身長值、體重值,一批傳染性肝炎患者的血清轉氨酶測定值等。

在這裏插入圖片描述

(2)統計分佈

統計分佈(frequency distribution)亦稱“次數(頻數)分佈(分配)” 。在統計分組的基礎上,將總體中的所有單位按組歸類整理,形成總體單位在各組間的分佈。

分佈在各組中的單位數叫做次數或頻數。各組次數與總次數(全部總體單位數)之比,稱爲比率或頻率。將各組別與次數依次編排而成的數列就叫做統計分佈數列,簡稱分佈數列或分配數列。



(二)統計分析的常見指標

(1)均值,方差,標準差,中位數,衆數

  • 均值:平均數,統計學術語,是表示一組數據集中趨勢的量數,是指在一組數據中所有數據之和再除以這組數據的個數。
    在這裏插入圖片描述
  • 方差:方差是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。
    在這裏插入圖片描述
  • 標準差:標準差(Standard Deviation) ,是離均差平方的算術平均數的平方根,用σ表示。在概率統計中最常使用作爲統計分佈程度上的測量。標準差是方差的算術平方根。 標準差能反映一個數據集的離散程度。平均數相同的兩組數據,標準差未必相同。
    在這裏插入圖片描述
  • 中位數:中位數(Median)又稱中值,統計學中的專有名詞,是按順序排列的一組數據中居於中間位置的數,代表一個樣本、種羣或概率分佈中的一個數值,其可將數值集合劃分爲相等的上下兩部分。對於有限的數集,可以通過把所有觀察值高低排序後找出正中間的一個作爲中位數。如果觀察值有偶數個,通常取最中間的兩個數值的平均數作爲中位數。

(2)總量指標

總量指標是用來反映社會經濟現象在一定條件下的總規模、總水平或工作總量的統計指標。總量指標用絕對數表示,也就是用一個絕對數來反映特定現象在一定時間上的總量狀況,它是一種最基本的統計指標。

(3)相對指標

相對指標亦稱“統計相對數”。兩個有聯繫的現象數值相比得到的比率。反映現象的發展程度、結構、強度、普遍程度或比例關係。分爲:結構相對數、強度相對數、比較相對數、比例相對數、動態相對數、計劃完成相對數等。表現形式是有名數和無名數。
如:甲地職工男職工人數佔職工人數的70%

(4)平均指標

平均指標亦稱“平均數”。同質總體內各單位某一數量標誌的一般水平。平均數的特點是對總體各單位之間標誌值的差異抽象化,用一個數字顯示其一般水平。因此,它可用來比較不同時間、地點或部門之間同類現象水平的高低,分析現象間的相互關係,估計推算其他有關指標,如用樣本平均每畝產量乘收穫面積估算農作物總產量。

(5)變異指標

綜合反映總體各單位標誌值變異程度的指標。簡稱變異指標。它顯示總體中變量數值分佈的離散趨勢,是說明總體特徵的另一個重要指標,與平均數的作用相輔相成



(三)統計分析的特點

  • 科學性 : 統計分析方法以數學爲基礎,具有嚴密的結構,需要遵循特定的程序和規範,從確立選題、提出假設、進行抽樣、具體實施,一直到分析解釋數據,得出結論,都須符合一定的邏輯和標準。
  • 直觀性: 現實世界是複雜多樣的,其本質和規律難以直接把握,統計分析方法從現實情境中收集數據,通過次序、頻數等直觀、淺顯的量化數字及簡明的圖表表現出來,這些數據的處理,將我們的研究與客觀世界緊密相連,從而提示和洞悉現實世界的本質及其規律。
  • 可重複性: 可重複性是衡量研究質量與水平高低的一個客觀尺度,用統計分析方法進行的研究皆是可重複的。從課題的選取、抽樣的設計,到數據的收集與處理,皆可在相同的條件下進行重複,並能對研究所得的結果進行驗證。

(四)統計分析的基本步驟

  • 收集數據: 收集數據是進行統計分析的前提和基礎。
  • 整理數據: 整理數據就是按一定的標準對收集到的數據進行歸類彙總的過程。
  • 分析數據: 分析數據指在整理數據的基礎上,通過統計運算,得出結論的過程,它是統計分析的核心和關鍵。


(四)數據統計分析pandas工具使用(共12節入門教程)

在這裏插入圖片描述

pandas學習筆記(一):對象創建(Object creation)

pandas學習筆記(一):對象創建(Object creation)學習鏈接

pandas學習筆記(二):查看數據(Viewing data)

pandas學習筆記(二):查看數據(Viewing data)學習鏈接

pandas學習筆記(三):選擇(Selection)

pandas學習筆記(三):選擇(Selection)學習鏈接

pandas學習筆記(四):數據缺失(Missing data)

pandas學習筆記(四):數據缺失(Missing data)學習鏈接

pandas學習筆記(五):操作(Operations)

pandas學習筆記(五):操作(Operations)學習鏈接

pandas學習筆記(六):合併(Operations)

pandas學習筆記(六):合併(Operations)學習鏈接

pandas學習筆記(七):分組(Grouping)

pandas學習筆記(七):分組(Grouping)學習鏈接

pandas學習筆記(八):重塑(Reshaping)

pandas學習筆記(八):重塑(Reshaping)學習鏈接

pandas學習筆記(九):時間序列(Time series)

pandas學習筆記(九):時間序列(Time series)學習鏈接

pandas學習筆記(十):分類(Categoricals)

pandas學習筆記(十):分類(Categoricals)學習鏈接

pandas學習筆記(十一):繪圖(Plotting)

pandas學習筆記(十一):繪圖(Plotting)學習鏈接

pandas學習筆記(十二):數據的輸入與輸出(Getting data in/out)

pandas學習筆記(十二):數據的輸入與輸出(Getting data in/out)學習鏈接



附:參考資料

  • 百度百科·隨機分佈
  • https://baike.baidu.com/item/%E9%9A%8F%E6%9C%BA%E5%8F%98%E9%87%8F

  • 百度百科·統計分佈
  • https://baike.baidu.com/item/%E7%BB%9F%E8%AE%A1%E5%88%86%E5%B8%83

  • 智庫百科·統計分析
  • https://wiki.mbalib.com/wiki/%E7%BB%9F%E8%AE%A1%E5%88%86%E6%9E%90

  • 維基百科·統計學
  • https://zh.wikipedia.org/wiki/%E7%BB%9F%E8%AE%A1%E5%AD%A6

  • 智庫百科·統計分析
  • https://wiki.mbalib.com/wiki/%E7%BB%9F%E8%AE%A1%E5%88%86%E6%9E%90
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章