沒有統計思維,數據騙的就是你

讓我們陷入困境的並非我們不知道的東西,而是我們知道但並不正確的東西。——阿蒂默斯·沃德

假設你是一個非常愛喝牛奶的人,有一天,你在網上看到一篇醫學文章,它告誡人們:愛喝牛奶的人容易得癌症。某些國家罹患癌症的人數不斷攀升,正是因爲它們是牛奶的生產和消費大戶。而另外的一些國家,患癌人數卻很少,因爲那裏牛奶稀缺。

如果你對數據毫無概念,這會你就該大驚失色,盤算着自己該如何戒掉喝牛奶的習慣了;反之,稍微懂點數據統計的話,你就會發現這篇文章的謬誤所在:癌症主要是在中年以後發生,文章提到的瑞士等國家人民更加長壽,患癌概率增加很正常。因此,牛奶導致癌症的因果關係根本不成立,你會放心地繼續喝牛奶。

從上述事例就可以看出,擁有基本的統計思維,可以幫助我們瞭解真實世界,從而做出科學的決策和行爲。反之,沒有這種思維,我們很容易相信日常生活中的各種數據謊言——統計數據經常被誇大或隱藏,從而形成錯誤認知,對我們的生活造成不良影響。

《統計數據會說謊》就向我們傳授了基本的統計思維方式這本書通過許多幽默的案例,深入淺出地介紹了統計學基本原理,教我們輕鬆識別數據謊言。自50年代首次出版以來,這本書不斷再版,並被譯成多國語言,在世界的影響力經久不衰,被譽爲美國商業人士、研修人員的重要入門必修書之一。

作者達萊爾·哈夫,美國統計專家。畢業於愛荷華州立大學,獲得學士學位和碩士學位,在此期間他加入了美國大學優等生的榮譽學會,同時還參加了社會心理學、統計學以及智力測驗等研究項目。他的文章發表於《哈潑斯》、《星期六郵報》、《時尚先生》等多個知名媒體。1963年,他由於貢獻突出被授予國家學院鍾獎。

擁有基本的統計思維,就是要通過找到以下5個問題的答案,來反駁統計數據:

是誰這麼說?

他怎麼知道?

漏掉了什麼?

有人偷換了概念嗎?

這合乎情理嗎?

讓我們詳細看看吧!

1 是誰這麼說?

是誰這麼說,是指要避免模糊、錯誤描述的干擾,明確提出統計的人是誰。

比如,有篇文章聲稱上大學會導致女性結婚概率降低,作者是康奈爾大學的“專家”。乍一看,你可能會認爲提出統計的人是康奈爾大學——是權威機構,因此對這個統計產生錯誤的信任。事實上,只有數據是康奈爾大學提供的,結論完全由作者提出,和康奈爾大學毫無關係。

2 他怎麼知道?

他怎麼知道,是指要發現統計樣本中的偏差。一般來說,要特別留意樣本的規模是否足夠龐大到說明問題。

比如,芝加哥《商業日報》做了一個關於囤積物品、哄擡物價的調查,在169家公司中,有67%的公司認爲自己是物價上漲的受害者。事實上,該報社共向1200家大型公司發去了調查問卷,但只有14%的公司回覆了,86%的公司壓根兒沒表明看法。因此,這些回覆了問卷的公司就組成了一個帶有偏差的樣本,結論根本不可信。

3 漏掉了什麼?

漏掉了什麼,是指要留意統計結果中是否漏掉了什麼重要信息。

首先,該統計的平均數、指數、測算方式是否可信。

平均數指代的是算術平均數、中位數,還是衆數?簡單來說,平均數是所有數據的平均值;中位數是居於中間的數據,有一半數據會比它高,另一半則比它低;衆數是出現次數最多的數值。不同定義的平均數,有時區別很大,未加說明的平均數根本不可信。

比如,某人要買房子時,中介告訴他,這片街區用戶的年平均收入是15萬元,讓他下決心付錢,而當他住進去後,某人卻向政府請求降低稅率,理由是這帶用戶年平均收入僅爲3.5萬元。實際上,第一個數據使用了較大的算術平均數,第二個則是較小的中位數。

指數是不是刻意選擇的?比如,經濟蕭條過後,利潤和生產指數的增長要比工資指數的增長快得多。實際上,這是因爲當時利潤已經降至較低水平,基數較小,所以利潤在此基數上增長的百分比一定會比工資的大。

數據是否經過可信的測算方式(概率誤差、標準誤差)的檢驗?比如,雜誌編輯調研發現,35%用戶喜歡A文章,40%用戶喜歡B文章,因此更多采用B文章類型。實際上測算髮現,數據差異只是統計誤差,並不能反映B文章更受歡迎。

*概率誤差、標準誤差:計算數值,通常用於表示樣本代表整體數據的精確度。

其次,該統計是否提供了原始數據及必要對比。

統計是否提供了原始數據?只提供百分比的數據通常具有欺騙性。比如,美國某大學開始招收女性學生時,反對者聲稱:該大學33%的女生嫁給了該校的男老師!查看原始數據才發現——其實當年只有3名女生入學,有1個嫁給了老師。

統計是否提供了必要的數據對比?很多時候沒有對比,統計失去意義。比如,衛生部數據表明,在大霧天氣的一週內,大倫敦地區的死亡人數猛增至2800人。然而,缺乏與隨後幾周死亡率數據的對比,此統計不能表明大霧是奪命殺手。

最後,該統計是否漏掉了其他導致變化發生的因素。

比如,有人發佈了一份數據,對比了美國17年4月和16年4月的零售銷售額,目的是要證明17年經濟好轉了。但遺漏了:16年的復活節假期在3月,而17年的則是在4月。所以,17年銷售額提升,和節假日有關,不能說明經濟復甦。

4 有人偷換了概念嗎?

有人偷換了概念嗎,是指原始數據和最終結論有沒有什麼地方被偷換概念。

調查方式有問題嗎?比如,報紙調查表明:英國的男性比女性更愛洗澡。可是,實際上這些調查數據是來自用戶口述。涉及隱私時,人們說的和做的往往不是一回事。因此,這個調查結論是不可信的。

定義發生變化了嗎?比如,某次普查發現,1935年的農村數量與1930年相比大幅增加,人們認爲這是一場“迴歸農場”運動。實際上會出現這個結論,是由於人口普查局定義的農場概念變化了,兩次統計農場數量的口徑不同導致的。

因果關係有依據嗎?比如,某雜誌文章圖表顯示:工廠裏的電動馬力在不斷攀升,每小時的平均工資也跟着上漲。但是觀察發現,每週的平均工資卻在下跌。所以,沒有證據表明電力和工資之間有什麼因果關係。

是否說明了“第一”涉及的領域?不說明這點,人人都可以說自己是業界第一。比如,百度公司和谷歌公司都可以說自己是搜索引擎市場的領頭羊。實際上,百度指的是在中國的搜索引擎市場,而谷歌指的是全球市場。

是否在拿詞義做文章?比如,某雜誌報導,會計們希望將“剩餘”這個詞從公司的資產負債表中刪除,使用類似“留存收益”或“固定資產增值”等詞語替代。實際上,這就是文字遊戲,指代的內容沒變化,是偷換概念的做法。

5 這合乎情理嗎?

是否合乎情理,是指統計是否以未經證實的假設爲基礎。未經證實的假設包含很多:公式、事實、看似精確的數據等。

比如,悉魯道夫·弗萊施提出了一個可讀性公式,通過一些簡單項目來檢測一篇文章的難易程度,類似詞語和句子長度等。它吸引了一些報紙出版商。事實上,這個公式假設了詞語和句子的長度決定了文章閱讀的難易程度,這個假設未經證實。

說了這麼多,你是否已經學會了如何反駁統計數據呢?下面是這篇書評的思維導圖,你不妨把它保存下來,下次自己再看到電視上的某個統計報告,或者好友轉發你一個科普文章時,不要輕易相信裏面的數據,而是通過問問題的方式找到這些統計數據的漏洞,這樣一來,你纔算是真正擁有了統計思維,不會再上當受騙了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章