Propensity score簡介

預測causal effect的標準做法是做隨機試驗,但是這種隨機試驗通常很難完成,比如要預測吸菸與肺癌的因果效應,那麼就必須隨機讓一部分人強制抽菸(treatment=抽菸),讓另一部分人強制不抽菸(treatment=不抽菸),然後這樣做是不現實的。此外如果不進行隨機試驗,那麼我們很容易得出一些莫名其妙的結論。比如,你怎麼知道是吸菸導致肺癌,而不是因爲喜歡吸菸的人本身就容易得肺癌呢?換句話說,這裏可能存在一個協變量X(喜歡抽菸),導致了一個人選擇treatment=抽菸。

那這個問題怎麼解決呢?直覺上,隨機試驗的本質其實就是將所有的協變量隨機打散,分在treatment=抽菸和treatment=不抽菸中,從而使得協變量與是否做干預是獨立的treatmentXtreatment \bot X。所以,類似的思路,我們只要找到一種分組方式,使得X與treatment獨立就可以了。那麼怎麼找到這種分組?我們可以定義Propensity score:
e(x) =def Pr(treatment=X=x). {\displaystyle e(x)\ {\stackrel {\mathrm {def} }{=}}\ \Pr(\text{treatment}=抽菸|X=x).}
現在如果有兩個人,一個抽樣,一個不抽菸,但是他們的Propensity score是一樣的(或者相似的),我就將他們分別分到抽菸組和不抽菸組,只要找到足夠多這樣的pair,這兩個分組就會跟協變量獨立。更直觀來說,兩個人的Propensity score一樣,意味着他們的X應該是很接近,如果我們能找到兩個“一樣”的人,他們的生活環境,年齡,性別等等因素(協變量)都是一樣的,除了一個人抽菸一個人不抽菸這一點不同,那麼,只要有足夠多這樣的人,我們就能判斷吸菸對肺癌的影響。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章