讀書筆記丨簡單統計學:如何識破一本正經的胡說八道


一看這本書,就被書名所吸引。特別是它的副標題——如何識破一本正經的胡說八道。

現在自媒體流行,信息傳播非常迅速。其中,有一種對大家危害特別大。這就是僞科學的流行。證僞的成本是如此之大,所以,僞科學很難識破。對於我們普通人來說,如何聽信了那些僞科學或者是謠言,那麼,輕則影響我們的判斷,重則影響我們的健康,甚至生命。

前段時間有個人特別出名,伊麗莎白·霍爾姆斯,名字你可能不熟悉,但是提起“美國版權健”,你可能有所耳聞,這位全球有名的女騙子靠着“即時驗血”這種子虛烏有的技術,騙過了很多大咖,甚至美國前總統奧巴馬都命她爲“美國全球創業大使”,克林頓等曾和她一起出席訪談,談笑風生。就因爲她的公司擁有一種技術,可以只抽一滴血,就能檢驗出300項生理指標,大大提高當代醫療服務的效率。

這個騙局影響了很多人,讓很多人損失慘重,甚至延誤了病情。

我們應該如何提高識破騙局的能力呢?作者的答案是懂點簡單統計學。

《簡單統計學》一書,就是一本幫助我們輕鬆拆穿日常生活中的數字謊言的防騙指南。

作者加里·史密斯在書中爲我們列舉了10餘種數據作假方式,比如當年轟動世界的神算子——章魚保羅的騙局、比如癌症發病率與居住地關係等。其中與我們關係最爲密切的三個騙局分別是:數據選擇過程中存在自選偏差;數據統計中存在不可避免的偶然性,以及人們會根據自己的理想對數據進行別有用心地處理。

一、這些騙局大致可以分爲兩類:

一類是由於不可避免的自然原因或數據樣本採集過程中不可避免的侷限性而導致的數據欺騙,比如偶然性因素對數據的影響;

另一類則是人們爲了達到某種目的或實現某種目標而對數據進行別有用心地收集和解讀,比如忽略掉不符合自己期望的數據。

二、出現統計結論錯誤的原因

1、 低估隨機事件的發生概率。

2、 被數據欺騙。

3、 我們有產出錯誤結論的動機。

三 、常見的統計錯誤結論

1、自選擇偏差。指的是在研究過程中因樣本選擇的非隨機性而導致得到的結論存在偏差。如果我們在比較做出不同選擇的人,同時不去考慮他們爲什麼做出這些選擇的時候就會出現自選擇偏差。比如參加體育活動的孩子比較自信,並不能說明體育運動能增強自信,也許有自信的孩子更願意參加競爭性的活動;大學生的平均工資高於高中生,可能有一部分原因是他們更加聰明更加有抱負。

2、倖存者偏差。我們會觀察人們的工作、遊戲和生活,而且我們會自然而然地根據我們看到的現象得出結論。我們的結論可能會失真,因爲這些人所做的事情是他們自己選擇的。我們觀察到的特點可能並非源於活動,而是反映了選擇這種活動的人的個性。

3、變形的圖像。圖像可能會扭曲和破壞數據。圖像可以揭示某種模式,比如收入隨時間的變化以及收入與支出的相互關係。圖像也會扭曲數據,誤導讀者。當心將數軸上的零點忽略掉的圖像。這種忽略可以將圖像放大,顯示出之前由於分辨率問題而無法發覺的模式。不過,這種做法也會放大數據的波動性,可能產生誤導效果。最糟糕的是數軸上沒有數字的圖像,因爲我們無法判斷數據的波動性得到了怎樣的放大。

四、如何識辨和避免這些錯誤

1、保持懷疑。當某人向你展示某種模式時,不管這個人的履歷多麼令人震撼,你都應該保持懷疑,問一問“爲什麼”。不管遇到怎樣的模式,你都應該思考:爲什麼會出現這種模式?特別是對於天馬行空的反直覺的理論,應抱有極爲謹慎的懷疑態度。另外如果兩種事物之間沒有合理的聯繫,那麼即便他們數據上呈現相關性,也不能證明有因果關係。

2、注意數據的完整性和真實性。在研究中遺漏數據是一個危險信號,因爲一些數據被丟棄或者“調整”,可能是因爲他們對理想結果相矛盾。

3.比較是實證研究的生命線。在與某種替代方案進行比較之前,我們無法確定某種藥物、療法、政策或策略的有效性。不過,請當心膚淺的比較,包括對於大數和小數百分比變化的比較,對於除了隨時間增長以外沒有其他共同點的事物的比較,以及對於無關數據的比較。這些比較就像蘋果和李子幹之間的比較一樣。

4.具有爭議性的論斷之所以具有爭議性,是因爲它們違反直覺——這是一個很好的懷疑理由。當你聽到這樣的說法時,不要輕易認爲自己是錯誤的。具有爭議性的論斷很可能應當被丟棄。考慮數據是否存在問題,比如自選擇偏差。考慮因果關係是否應該顛倒過來。哦,對了,還要考慮出現錯誤的可能性(比如人們讓計算機計算 196 的平方根,而不是 169 的平方根。即使是最優秀、最誠實的研究人員也是人),而人總會犯錯誤。

5.仔細觀察並考慮混雜因素,如果一項研究支持你的觀點,你會自然傾向於會意地點點頭,認爲你的觀點得到了證實。更加明智的做法是進行仔細觀察並考慮混雜因素。當一項研究看上去不合理時,你也應當採取這種做法。例如,伯克利研究生錄取政策歧視女性的說法看上去是合理的。不過,當人們開展深入調查,以確定問題最嚴重的院系時,他們發現了意想不到的現象——實際上,這些院系傾向於優待女性申請人。女性的總體錄取率之所以偏低,是因爲她們更喜歡申請錄取率較低的教育計劃。由於潛在的自選擇偏差和混雜因素,觀測性研究存在固有的挑戰性。應時刻對利用數據發現理論的研究保持警惕。

6.我們喜歡在數據中尋找模式併爲我們所看到的模式編造一些理由,這是無法避免的事情。因此,我們很容易相信好手感和差手感的說法是真實的,相信成功率會出現極大的波動。記住,即使在隨機的拋硬幣實驗中,也會出現僅僅來自巧合的、引人注目的連續成功和連續失敗現象。好手感和差手感很可能的確存在,但它比我們想象的要小得多。

7.均值迴歸。當學術能力或運動能力等特點得到不完美測量時,觀測到的表現差異會誇大實際能力差異。表現最優秀的人與平均水平的距離很可能不像看上去那樣遙遠,表現最爲糟糕的人也是如此。因此,他們隨後的表現將會朝着均值迴歸。均值迴歸也不意味着能力向均值收斂、大家很快就會具有平均水平,它僅僅意味着極端表現在經歷好運和黴運的羣體之間輪換。

8.我們經歷糟糕的運氣時,我們希望自己能夠轉運。我們的黴運不可能永遠持續,但發生在我們身上的壞事並不會自動提高發生好事的可能性。要想改變運氣,我們通常需要改變自己的行爲。例如,如果我們在找工作時不斷遭到拒絕,我們應當考慮如何更好地表現自己,或者考慮申請不同的工作。正負相抵只是一個笑話,不是值得信賴的規律。

9.某種理論與數據聚集現象相符並不是一種具有說服力的證據。人們發現的解釋需要言之有理,而且需要得到新數據的檢驗。

10.對於看上去天馬行空的理論,應當抱有極爲謹慎的懷疑態度。

11.不要把資金押在歷史模式以及幾乎沒有合理解釋的關係上。

12.我們既需要理論,也需要數據。不要僅僅被其中的一種事物說服。如果有人通過搜刮數據發現了某種模式,我們還需要一種合理的理論。另一方面,在經過令人信服的數據檢驗之前,理論僅僅是理論而已。不管一項研究是誰做的,它都需要通過常識性檢驗,而且需要通過沒有被數據挖掘所污染的無偏數據的檢驗。

總結一下:

三條防騙指南

第一條:要讀數據,更要讀數據背後的原因 ;

第二條:要有意識地尋找兩種事物之間的合理聯繫;

第三條:無論什麼時候,都要記得對拿到的數據進行檢驗。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章