每次在寫數據分析必學知識時,我都會提到,對於數據分析師來說,我們是必須學習統計學知識的,畢竟天天跟數據打交道,總不能連最基礎的統計學知識都不會吧?
舉個例子,數據分析,你如果連最起碼的置信區間都不懂,你還怎麼處理數據?如果統計學中最基本、核心的思想:用樣本估計總體,你都沒概念,就別說自己會數據分析了。
但多數人在學習統計學知識時會無比頭疼,因爲統計學的書籍裏幾乎都是複雜的推理公式,讓人難以理解。其實,對於大部分數據分析師來說,我們並不需要掌握的那麼細。
因此,我整理了一些你需要掌握的統計學知識,把統計學知識展開了說,讓大家大致瞭解有哪幾個模塊知識,然後跟着這些模塊知識去學習。
一、概率與概率分佈
先要明確,統計學不研究統計,它研究的是不確定性!而不確定性事件唯一的量化標準就是概率,獨立隨機事件沒法通過概率來預判何時發生,但卻可以用概率來描述事件發生的可能性。
這一模塊主要掌握
隨機事件的概率
離散隨機變量
連續隨機變量的概率分佈
二、數據的概括性度量
在數據人的實際工作中,你會經常遇到這種情況:業務人員/老闆拿到一坨數據,丟在你面前,讓你分析。這時,大多數人會不知所措,不知道從哪一步開始整理這些數據。這個時候,就需要通過概括性的度量指標,來幫我們從宏觀上把握數據中的初步信息。
這一模塊主要掌握
集中趨勢的度量
離散程度的度量
分佈形態的度量
三、迴歸分析
迴歸分析,因爲它的易懂性,也因爲它的實用性,但隨着自己數據分析經驗的積累,對迴歸分析的理解也越來越深,它不是簡單的迴歸模型求解那麼簡單,它更是一種日常工作中解決問題的思路和方法論。
這一模塊主要掌握
相關係數
迴歸分析
最小二乘法
顯著性檢驗
四、統計量及其抽樣分佈
抽樣,就是從研究的總體中抽取一部分個體作爲我們真正的研究對象,稱爲樣本,最後通過樣本的結果來推測總體情況。
這一模塊主要掌握
統計量的基本概念
常用統計量
正態分佈
五、參數估計
參數估計,顧名思義就是對參數進行估計,那什麼是參數呢?就是你假設分佈的參數,也就是說你知道某個隨機過程服從什麼分佈,但是不確定他的參數是什麼,那怎麼辦?你採樣,然後通過這些樣本的值,去估計分佈的參數就是參數估計。
這一章節,需要大家掌握幾個核心概念:
參數
點估計
區間估計
我是“數據分析不是個事兒”,常年分享數據分析乾貨,不定期分享好用的職場技能工具,對數據分析感興趣的話,可以點個關注。