統計學防騙手冊——《統計數據會說謊》

一本簡單易上手的統計學防上當受騙手冊。作者的本意並不是指責負責數據的統計學家，而是出於對人性的瞭解，知道原本中立的數據在推銷員、公共關係專家、記者和廣告文案撰寫者的手裏，難免會被歪曲誇大或過分簡化，最終的分析結果與數據反映的實際情況相差萬里。這本書會指導你成爲生活裏的偵探，一招搓破那些虛張聲勢的謊言。

一、樣本偏差

例子：

1936年《文學摘要》（Literary Digest）對當年總統大選預測失敗的事例。曾經精確預測出1932年大選結果的一千萬電話用戶和《文學摘要》的訂閱者們令編輯相信蘭登（Landon）將獲得370票，羅斯福（Roosevelt）只有161票。如此龐大的調查羣體怎麼會有偏差呢？然而偏差確實存在。一些大學論文和其他事後調查發現：在1936年有錢用電話和訂雜誌的人並不具有代表性。從經濟角度來看，他們是一類特殊人羣。該樣本之所以帶有偏差是因爲事實最後證明，該樣本對象都是共和黨選民。

應用：

調查的樣本是否足夠大，是否隨機分佈，是否存在各種潛在的偏差，調查對象是否如實回答了調查問題。如此嚴格要求的抽樣調查是很難做到的。

二、精挑細選的平均數

例子：

某房產銷售在賣房時對你說，該小區住戶的平均年收入是500萬；當你買房入住後，又看到他在遊說街道辦給該小區低收入補貼，宣稱小區戶主的平均年收入只有5萬。
這兩個數據可能都是有真實數據支撐的。平均年收入500萬可能只是因爲有一個富豪在該小區投資了一套房，而其他都是窮人也說不定。

應用：

關鍵問題是區分人們說到“平均”的時候到底指什麼。一般說來有三種：加和平均（或算術平均）、中位數、最多數。這三者經常代表樣本的不同維度，在標準正態分佈的時候，三者趨同，但是小樣本、非正態分佈時，是不能互相替代的。
當別人說到“平均”時，最好問清楚是哪種平均，並且，樣本多大，裏面都包含什麼。

三、關鍵數據不全

例子：

某廣告聲稱：使用某牙膏後用戶的蛀牙減少了23%！
真的有那麼明顯的差別嗎？再看該廣告的小字部分，調查組只有12個人。並且，你不知道廠家做了多少組實驗，才獲得了“蛀牙減少23%”這個顯著的成果。

應用：

這種詭計常見的手段是，給出平均值但不給方差；畫出趨勢線但沒有標明數據值（scale）；給出百分比卻沒說樣本大小。都是通過隱瞞部分數據以操作數據達到操縱結論的目的。

四、誤差——無事瞎忙

例子：

你家兩個小孩同去參加智力測試，結果兒子智商98，女兒101。你被告知智力測驗的正常水平爲100。這時你是否該擔心，兒子是弱智？

應用：

凡是這類測驗，因人而異，不應該只有一條區分正常與不正常的線，而是應該設“正常範圍”與“異常範圍”。比如體檢抽血時，都是給出正常區間，只有在正常區間以外才需要關注。

五、圖表截取

這部分不上圖很難說明了。基本的原理就是根據數據畫出折線圖後，截取掉一部分y軸，這樣可以增加折線的斜率，放大麴線的變化趨勢，小幅攀升可以變成陡然增長，造成驚人的效果。
這個對於科研人員算是一項必修課，本着嚴謹的態度，儘量不要截座標軸，如果是兩幅圖進行前後效果比較，要採用相同的座標軸比例。

六、一維圖形表示數量

數據是一維的，但是紙上的圖形是二維甚至三維的。當你用圖形來表示數據的比例時，很可能會放大數據差異。比如數據增長了一倍，你用三角形表示數據大小，把三角形的邊長增長了一倍來代表數據增長，這樣三角形的面積就增長了四倍，若是有空間感，則體積增長了八倍，造成的視覺衝擊與實際情況不符，會過分誇大事實。

七、看似相關

例子：

1898年“美西戰爭”期間，美國海軍的死亡率是9‰，而同期紐約市市民的死亡率爲16‰。後來，海軍徵兵部門的人就拿這個數據來說明待在部隊更安全。假設這些數據都是精確的，因爲它們可能很準確。但稍等一下，看看你能否發現其中的伎倆，或者說徵兵人員根據它們得出的結論是否毫無意義。

例子：

我們經常可以在雜誌和廣告上見到陳述中濫用的前後對照圖表的統計形式。有兩張照片照的是同一間客廳，這是爲了證明刷上一層油漆後的顯著不同。但是在兩次照相期間，廣告商會加入新的傢俱，更何況“之前”的照片只是一張光線很差的黑白小照，而“之後”的照片則是一張色澤鮮明的彩色大照。還有個例子：有兩張照片能向你展示一個姑娘使用護髮素前後的明顯不同。天啊！她使用了護髮素後，看起來是多麼漂亮啊！但你若仔細檢驗，會發現她之所以變美多半是由於她的嫣然一笑以及打在她頭髮上的背光。因此，這應歸功於攝影師而非護髮素。

應用：

這一部分需要較爲嚴謹的邏輯辨別：結論到底是由對方給出的數據推理得到，還是對方把一堆相關事物堆砌而成。

八、因果顛倒/歸因謬誤

歸因謬誤在人的邏輯系統裏很常見。比較極端的一個例子是，因爲每天雞叫之後才天亮，因此相信“雞叫”是導致“天亮”的原因。
這種歸因謬誤很常見：人類天性就是喜歡歸因，守因果律的制約，若遇到因果律難以解釋的事情就會難受。但是人類社會是複雜系統，很多事情是相互影響的（如蝴蝶效應），因果律難以給出確定的解釋。在還爲充分研究、實驗就憑感覺得出的歸因，一般都是片面乃至錯誤的。
本書裏用的一個例子是，在一個原始人部族，普遍相信“蝨子使人健康”。原來是因爲一般健康的人身上都有蝨子，生病的人身上卻沒有蝨子。其實是因爲這個原始部族的人身上都有蝨子，但人生病的時候體溫升高，不適合蝨子生存，蝨子暫時離開了。當人快要恢復健康的時候，體溫下降，蝨子又重新寄生在這個人身上，並不是“蝨子帶來了健康”。
書中建議，“爲了避免陷入這種因果謬誤，從而相信許多似是而非的東西，你需要嚴格檢驗各種與相關性有關的說明。”
相關性往往是通過一些令人信服的精確數據來證明兩件事情之間的因果關係。但事實上，這種相關性卻有多種類型。相關並非因果。你可以說兩者相關，但是在作出因果推定時，一定要慎重。

如何識別統計騙局

作者在文末建議讀者，在遇到統計結論時問以下幾個問題：

他怎麼知道？
漏掉了什麼？
有人偷換概念嗎？
這是否合乎情理？

不要輕易被數據嚇倒，而是要慎重的接受別人拿數據堆砌出來的結論。

統計學防騙手冊——《統計數據會說謊》

統計學防騙手冊——《統計數據會說謊》

一、樣本偏差

例子：

應用：

二、精挑細選的平均數

例子：

應用：

三、關鍵數據不全

例子：

應用：

四、誤差——無事瞎忙

例子：

應用：

五、圖表截取

六、一維圖形表示數量

七、看似相關

例子：

例子：

應用：

八、因果顛倒/歸因謬誤

如何識別統計騙局

AI 畫圖真刺激，手把手教你如何用 ComfyUI 來畫出刺激的圖

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

公衆號5月C#/.NET熱文一覽

git 下載大陸鏡像地址

轉：softmax和sigmoid比較

花粉過敏

我決定不再視女人爲敵

黑旗

午夜電臺

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結