《赤裸裸的統計學》,作者[美]查爾斯·韋蘭,2013年出版,豆瓣評分8.1分,可以作爲統計學入門讀物很好的一本書,知識點淺顯易懂,對小白非常友好,有統計專業知識的人可能會覺得乾貨略少。總的來說,值得一讀,推薦指數4顆星。文章末尾有關於這本書的知識圖譜。
一、統計學是大數據時代最炙手可熱的學問
第一章開頭提出了幾個有意思的問題:
- 基尼係數是否是衡量社會分配公平程度最完美的指標?(描述性統計學)
- 視頻網站是如何知道你喜歡的電影類型(相關性)
- 祈禱真的能讓病人的術後康復狀況改善嗎(隨機控制實驗)
- 是什麼導致自閉症發病率一直走高(相關性)
這些問題的背後都是一個一個統計學知識點,相信看完本書,你也就能得出答案。
二、描述統計學
第二章一開始其實就回答了第一章中的那個問題:
基尼係數是否是衡量社會分配公平程度最完美的指標?
先說答案:不是。統計學很少提供唯一正確的方法,基尼係數就是一種描述性數據的指標,將一系列複雜數據濃縮成一個單一數字工具,它不是一個衡量社會分配公平程度的最完美的指標,但它確實以一種便捷易懂的方式提供了一些關於社會分配公平程度的信息,同時也需要注意,任何一種簡化的數據都有被濫用的危險,這是描述性統計量的優勢與缺點。
說起描述性統計,就不可避免的要提到平均值、中位數、分位數、標準差、方差,這一章對這些概念都有詳細的描述和深入的理解。
這一章開頭還提出了一個小學數學問題:
你一直想買的一條連衣裙,商場售價爲4999元,先降價25%後再提價25%,最終售價是多少?
答案是93.75,你算對了嗎?忘記怎麼計算的童鞋可以百度一下,這是一個很簡單的百分比的問題,以及增長率的計算。
三、統計數字會撒謊
Q3::1950年人們的平均時薪是1美元,2012年人們的平均時薪是5美元,你覺得我們的工資水平漲了嗎?
這個問題先拋出來,關於統計數字會撒謊,相信大家感觸很深了,數據是真實的,它本身並沒有撒謊,只是解釋的角度、分析的單位不同而已。一個被舉爛了的例子還是要再次被拿出來說道說道,就是中位數和平均數,(3,4,5,6,102)的平均數是24,中位數是5,這兩個數字差異還是很大的,這也是工資被平均高了的原因。要分清分析單位,描述的對象以及不同的人口中的誰或什麼是不是存在差異。判斷比數學更重要
再回到開頭的問題,工資水平漲了嗎?其實大家都懂,不能簡單地關注數字的增幅,因爲有通貨膨脹嘛,得將兩個值統一換算成一個相同單位,如全部換算成2011年的美元再進行比較。
四、相關性與相關係數
這一章回答了第一章提出的那個問題:
視頻網站是如何知道你喜歡的電影類型
答案就是相關性。描述相關性的一個指標是相關係數,關於相關係數是如何解釋相關性的,這裏就不過多贅述了,關於相關性,你最需要知道的一點其實是,相關關係並不等於因果關係。學生的成績和家裏電視機的數量成正相關,並不是說只要家長多買5臺電視機,孩子的成績就能提高。
五、概率與期望值
Q5:買福利彩票,去賭場豪賭、投資股票或期貨,哪種方式讓你躋身《福布斯》富豪榜的可能性更大。
這是一個概率問題。概率是一門研究不確定事件和結果的學問,概率不會明確地告訴我們會發生什麼,但我們可以通過計算概率知道可能發生什麼、不太可能發生什麼。
期望值是所有事件的和,不僅是一個數字,更是我們進行判斷的指標。
大數定理,隨着試驗次數的增多,結果的平均值會越來越接近期望值。比如1元彩票的回報期望值是0.56元,長遠來看,這是一項低於成本的糟糕投資,但我今天卻運氣不錯的中了5元錢,但根據大數定律,假如我長年累月地買下去,無疑是一件賠錢的事情。
六、蒙提·霍爾悖論
Q6:主持人打開的3號門後面是一頭羊,在剩下的1和2號門中必定有一扇門後面是汽車,你該如何選擇才能中大獎?
這是著名的車、山羊、門的概率難題,叫蒙提·霍爾悖論,在一個綜藝節目中,有3扇門,1扇門後面是汽車,其他的是羊,參賽者選擇一扇門,主持人會在剩下的兩扇門中打開一扇有羊的門,然後問參賽者,是否改變最初的選擇?
這還是一個概率問題,通過計算得知,改變最初的選擇中獎的概率會大一些。這個問題也引申出了很多不同的解釋和回答,感興趣的朋友可以自行查找。
七、黑天鵝事件
Q7:1%的小概率風險如何在2008年成爲擊垮美國華爾街的黑天鵝,並毀了全球金融體系?
這個問題歸根溯源要說到風險價值模型,簡單點說就是用一個簡潔的指標表示一項投資在一個特定週期內可能讓公司蒙受的最大損失,出現這種結果的概率爲1%,也就是說,這項投資在99%的情況下都是安全的,但真正把事情搞砸的正是剩下的那1%。
一些概率的誤區,如果感興趣可以好好閱讀下書本身:
- 想當然地認爲事件之間不存在聯繫
- 對兩個事件的統計獨立一無所知:如賭徒謬論
- 成羣病例的發生:可能只是巧合
- 檢方謬誤
- 迴歸平均數
- 統計性歧視
5、6、7這三章都是在講概率,儘管概率有再多的簡潔特性和精準優點,也不能代替人類作爲行爲主體對其所進行的計算、進行計算的原因所作思考。
八、數據與偏見
如果想要準確反映整個人口的特點,抽樣無疑是最便捷公平的方式,但如果人口組成本身存在問題,即存在所謂的“偏見”,那麼無論樣本容量多大,都無法改變這一“偏見”情況。這告訴我們如果數據本身就有問題,那麼再嚴謹的分析也是徒勞,
下面就舉幾個統計方法無誤,數據本身有問題的例子:
ü 選擇性偏見
ü 發表性偏見
ü 記憶性偏見
ü 倖存者偏見
ü 健康用戶偏見
九、中心極限定理
Q9:一輛坐滿肥胖乘客的拋錨客車停在你家附近的路上,你推斷一下,它的目的地市馬拉松比賽現場還是國家香腸節展廳。
這個問題我們看一眼似乎就能得出結論,肯定是國家香腸節展廳啊,這種一概而論的能力,往往就是中心極限定理,中心極限定理的要義是,一個大型樣本的正確抽樣與其所代表的羣體存在相似關係。正是中心極限定理的邏輯告訴我們,大多數馬拉松運動員是比較瘦的,因此如此之多的“重量級”運動員被安排到一輛車上的概率是很低的,所以判定這輛車的目的地是香腸節展廳。
十、統計推斷與假設檢驗
Q10:垃圾郵件過濾、癌症篩查、恐怖分子追捕,我們最不能容忍哪件事情出錯,又有哪件事情是可以睜一隻眼閉一隻眼的?
統計學無法確鑿地證明任何東西,但可以先發現一些規律和結果,然後利用概率來證明這些結果的背後最有可能的原因,而在這個過程中最常使用的工具就是假設檢驗。
假設檢驗的思想是小概率反證法,可以這麼理解:先假設一個結論(零假設),然後通過統計分析對其進行支持或反駁。
舉個栗子:
- 零假設:某種新藥在預防瘧疾方面並沒有比安慰劑更有效
- 備擇假設:該新藥能夠預防瘧疾
統計推斷過程:服用新藥的小組瘧疾發病率遠低於服用安慰劑的對照組,如果該新藥不具備療效,那麼出現這一結果的概率是很低的,因此,拒絕原假設。
回到Q10這個問題,假設檢驗裏有I型錯誤和II型錯誤,這個問題的3種情形是在這兩個錯誤之間的一種妥協,具體地可以認真看書哦~
十一、民意測驗與誤差幅度
Q11:民調結果顯示,89%的美國人不相信政府會做正確的事,46%的人認可奧巴馬的工作表現,這個結果可以代表美國人的真實想法嗎?
民意測驗(民調)是基於中心極限定理,當然還可以計算出樣本結果大面積偏離整體的概率,這個就是誤差幅度,民意測驗結果有95%的概率在實際情況3%範圍內浮動。
在進行民調時需要思考的幾個點:
- 這個樣本能正確反映目標羣體的真實觀點嗎?以免造成選擇性偏見
- 採訪過程中問題設置能得出對研究課題有用的信息嗎?
- 受訪者說的一定就是真的嗎?
十二、迴歸分析與線性關係
Q12:你認爲什麼樣的工作壓力更容易使職場人猝死,是缺乏控制力和話語權的工作還是權力大,責任也大的工作?
實際上前者的死亡率更高,但這個結論是如何的出來的呢?迴歸分析!在控制其他因素的前提下,對某個具體變量與某個特定結果之間的關係進行量化,回到這個問題本身,就是來分析低級別的工作對某個人羣的健康狀況的傷害。迴歸分析的強大能力表現在,將我們所關心的統計關聯隔離出來。
我們關注迴歸分析着重看兩點,變量之間的相關關係,以及結果是否具有統計學意義。最後迴歸分析需要尋找兩個變量之間的最佳擬合關係,如身高和體重的關係,雖然不是絕對的,但通常身高較高的人一般體重也更重。如何確定擬合關係“最佳”呢?答案就是最小二乘法,這裏就不再展開了,可以自行百度或看本書哦。
其實迴歸分析難點不在於技術本身,而是要用到哪些變量以及如何將這些變量的作用發揮到最佳。這也是本章重點闡述的內容。
十三、致命的迴歸錯誤
迴歸分析爲複雜的問題提供了精確的答案,但這些答案卻不一定準確。這一章就是講迴歸分析運用中要注意些什麼,有以下幾個常見的錯誤:
- 用迴歸方程來分析非線性關係。只有當變量之間的關係爲線性時,迴歸分析纔可以派上用場。
- 相關關係並不等同於因果關係。
- 因果倒置。要確保是自變量影響因變量,而不是反過來。
- 變量遺漏偏差。如經常打高爾夫球容易患心臟病,這個結論就是遺漏了年齡變量,因爲可能不是打高爾夫球容易患心臟病,而是年齡大的人容易患心臟病。
- 高度相關的自變量(多元共線性)。如果兩個自變量高度相關,那麼就無法分清其與因變量之間的真實關係。
- 脫離數據進行推斷。用來解釋這個樣本的迴歸方程並一定適用於另一個樣本。
- 數據礦(變量過多)。
十四、項目評估與“反現實”
Q14:哈佛大學畢業生進入社會後,其收入往往高於一般大學的畢業生,讓他們獲得高收入的究竟是學校優勢,還是他們本身就很出色?
這個問題要用非對等對照實驗來解釋,“相比畢業證書上的學校名字,正確認識自己的興趣、抱負和能力更能成就人的一生”,相信是對這個問題最好的回答。
以上是我看完這本書的讀後感,還做了一個知識圖譜,傳過來可能看不太清,可以加我微信data_cola,給你高清原圖。
猜你喜歡:
@ 作者:可樂
@ 公衆號/知乎專欄/頭條/簡書:可樂的數據分析之路
@ 加微信(data_cola)備註:進羣,拉你進可樂的數據分析交流羣,數據分析知識總結,不定期行業經驗分享