掌握數據分析思維的第一步:如何思考問題?

文末有福利~

在數據分析思維當中,有一個非常重要的概念——反事實

也就是說我們只能想象未發生的事情,而不能斷定未來,在數據分析中叫做挖掘預測。因此正確的判斷因果關係非常難,無論在工作還是日常生活中。尤其是對於剛剛入門數據分析的人來說,很容易陷入反事實的陷阱之中。

日常決策的因果關係

假設有這麼一個場景:我昨天沒有睡好,天又下雨,結果我開車出去撞了護欄。

同時他又假設以下陳述均爲事實:

  1. 我昨晚沒睡好。
  2. 天下雨。
  3. 我在國內第一次開車。
  4. 北京交通標識不清楚。
  5. 當時正好一個人奔跑過來,讓我驚恐。
  6. 我開車前喝了一杯酒。
  7. 我酒量不高。
  8. 那麼這個事故的原因是什麼?都挺像的。

作者分析,爲什麼你會覺得“下雨”是一個原因:

如果當天是天晴,那麼天晴能不能成爲事故的一個原因呢?大部分人可能會認爲天晴作爲事故的一個原因比較奇怪。

這可能是因爲我們有個潛在假設,就是天晴是常態的,而下雨不是常態。但如果一個地方一天 24 小時,一年 365 天都在下雨,那麼天晴就成了一個不正常的狀態。在這種情況下,天晴反而讓我不習慣,最後讓我撞到護欄上去了。

所以我們在說“下雨”是一個原因時,背後其實已經在潛在假設正常狀態是指天晴了。

由此他提出一個觀點:我們在分析原因時,潛在假設了一個正常的參考系

就像劃火柴着火,如果你問原因是什麼,人們會說是劃火柴,而不會說是存在氧氣。

認知科學家、心理學家 Steven Pinker (史蒂芬·平克) 在《思想本質》裏解釋說,我們通常把易於識別的那個因素當作原因

人們莫名其妙地將其中一個必要條件識別出來,以此作爲一個事件的原因,同時卻將其他條件作爲該事件發生的動因和輔助因素,即使這些條件與那個被識別出的原因是一樣不可或缺的。這些必要條件間的區別並不在於物理事件間的連接或它們所遵循的規律,而在於與某些其他事態的隱性對比。

日常生活中的因果判斷,和我們的認知,即大腦對於因果的理解有關係。

掌握數據分析思維的第一步:如何思考問題?

 

認知理解的因果關係

我們來考慮這麼一個問題:

一輛有軌電車馬上要撞向 5 個毫不知情的鐵路工人。假設此時你正站在交換機旁邊,你可以將電車扳到另一條軌道上,但那樣會撞上另一個毫不知情的鐵路工人。你會扳動開關嗎?

然後想象另一個場景:

你站在一座大橋上俯瞰,你可以扔下重物讓電車停止,以避免撞向 5 個工人,而唯一的重物是你旁邊的胖子。你會把他扔下去嗎?

大多數人在第一種情況中選擇會,而第二種情況選擇不會。同樣是犧牲 1 人救 5 人,爲什麼會有這樣的差異呢?

平克通過人類語言中動詞的研究,解釋說,人類的因果關係識別基於一個“力動態”的心智模型

在因果場景中,一個參與者被稱爲“主動力”:一個被設想爲具有運動或靜止內在傾向的實體。另一個參與者被叫做“拮動力”:一個在主動力上施加外力的實體,這個外力通常是對主動力內在傾向的反作用力。

如果拮動力的力量大於主動力的內在傾向性,那麼主動力從運動狀態變爲靜止,或反之。如果拮動力的力量小於主動力的內在傾向性,那麼主動力則保持原始狀態

簡單說就是,關於有因果相互作用的兩個物體,我們會假設一個是有內在運動或靜止傾向的實體,而另一個是加之在它身上的力量(因)。最後這個實體是否運動(果),與它內在傾向性和外在力量大小的差異決定。

就像下圖,方塊和橢圓分別代表有內在靜止和運動傾向的主動力,箭頭代表拮動力(注意有大小之分)。紅色代表主動力最終運動,藍色代表靜止,那麼有 4 種狀態:

掌握數據分析思維的第一步:如何思考問題?

 

研究中的因果關係

1、因果關係三層級

開篇我們提到了“反事實”,這是《爲什麼:關於因果關係的新科學》中的概念。這本書的作者 Judea Pearl (朱迪亞·珀爾)是圖靈獎得主,計算機科學家和哲學家。

他指出,因果關係有 3 個層級。看下面這張圖應該可以大概明白:

掌握數據分析思維的第一步:如何思考問題?

 

現在的機器學習、深度學習還處在第一層。

第二層是干預,例如頭疼,服用阿司匹林。是在干預一個變量(人體內阿司匹林的量),以影響另一個變量(頭疼的狀態)。

最高層“反事實”,假如喫完阿司匹林,頭不疼了。那是因爲吃藥引起的嗎?還是因爲我聽到了某個好消息?還是因爲我當時喫的食物?我們需要能乘坐時光機回到過去,改變歷史:假如我當時沒有喫阿司匹林,會發生什麼?

引用書裏的一張圖,美國詩人 Robert Frost (羅伯特·弗羅斯特)的作品《未選擇的路》體現了反事實的概念:

2、相關不是因果

統計學裏有個段子:一個國家的人均巧克力消費量和諾貝爾獎得主的人數之間存在正相關。

那我們是不是要多喫巧克力呢?

事實可能是,在富裕的西方國家,喫巧克力的人更多,在教育和科研上投入更多,因而產生更多諾獎得主。這個“富裕”,同時導致了更多的巧克力消費和更多的諾獎得主,是一個“混雜”因子。

混雜是一個一直以來困擾統計學家問題。朱迪亞·珀爾指出,統計學家總是高估或者低估混雜的影響

例如,在有些研究中,能看到一長串被控制的變量:收入、年齡、種族、宗教、身高、頭髮顏色、性取向、健身頻率等等。而有的時候,又不願意去控制一些變量。

混雜之所以在統計學中如此難解決,根據作者的觀點,是因爲它不是一個統計學概念,而是一個因果概念,屬於因果關係之梯第二層。

但是在平常的工作中,還是有一些方法可以讓我們更好地區分相關與因果。在《原因與結果的經濟學》裏,作者提出,判斷因果還是相關,可以先問 3 個問題:

  • 是否“純屬巧合”?
  • 是否存在第三變量?
  • 是否存在逆向因果關係?

正確理解因果關係,是思維升級的利器。

關注我的公衆號“數據分析不是個事兒”,回覆“素材”,即可獲得數據分析大禮包

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章