傾向值匹配法的概述和應用+傾向值分析:統計方法與應用

傾向值匹配法的概述和應用

一、因果推論理論概述

1.在應用傾向值匹配法進行因果推斷時需要注意後續的檢驗理論,否則容易妄議因果。
2.什麼是傾向值匹配法?
將各個手冊單元多維度的信息,使用統計方法簡化成一維的數值,是爲傾向值,然後據之進行匹配,匹配的目的就是要找尋實驗組和對照組樣本中擁有相同(或者相似)傾向值的樣本,它們之間的差異,就是因果效用。
3.嚴謹科學的研究設計是進行因果推斷的前設,傾向值匹配法是協助我們解決因果推斷的研究方法,它不能幫助我們發現因果關係。
4.因果關係問題:Y是否是因X而生?如果是,X對Y影響的程度爲何?如果沒有X,Y是否就不會發生?
5.在因果推斷時面臨兩方面的困境:一是缺乏反事實案例,二是無法排除可能影響結果的其他因素。
6.因果推論的基本難題基本上也就是缺失數據問題,這表明我們無法獲得每個受測單元的個體處理效果,我們必須退而求其次,使用平均處理效用來滿足我們探究處理對於結果的作用。
7.使用觀測性數據推論因果最常遭遇兩個問題:其一,我們無法明確地從數據中界定或抽取出合適的處理變量;其二,即便我們可以界定合適的處理變量,我們也可能面臨變量間複雜的關聯關係,由此無法有效地推論因果效用。因此,使用觀測性數據推論因果,必須依賴一些假定的前提,才能宣稱我們求得的處理效用是可靠而有效的。
8.使用平均處理效用雖然可以解決無法求得個體處理效用的難題,但是這背後隱含着一個重要的單元同質性假定,也就是說,各個手冊單元基本上是一樣的,是同質的。

二、使用傾向值匹配法估計因果效用

p49 9.研究者在使用傾向值匹配樣本後,必須檢驗研究是否仍然存在選擇性偏差,進行敏感性分析。
10.使用傾向值匹配法的研究,必須如實彙報共變量分佈平衡的情況,如此才能說服讀者,證明研究者進行的是有意義的研究。
11.何爲統計顯著性:https://www.jianshu.com/p/707856b06f3d
12.無論是使用t檢驗法或者Kolmogorov-Smirnov檢驗法,使用傾向值匹配後,我們都是在尋求不顯著的檢驗方法,也就是共變量的分佈在實驗組和對照組是平衡的。然而,任何一種方法只能片面地檢驗共變量分佈平衡的情況,因此,最佳策略是多使用幾種方法,才能更好地確認共變量的分佈在實驗組和對照組間是平衡的。
13.關於缺乏重合的情況,最佳策略還是放棄缺乏重合部分的因果推論,將推論謹慎地侷限在重合的部分。
14.從理論上來說,傾向值既然將共變量總結成一維的特徵值,通過匹配,應該不會有缺乏重合和缺乏平衡的情形。然而在實際操作中,共變量缺乏重合和缺乏平衡的情況屢見不鮮,是因爲我們無從得知處理變量和其他共變量的真實關係,依賴的是一般參數或非參數迴歸模型,所得到的是粗略的平衡值。目前學者檢驗共變量重合研究的最新進展是使用貝葉斯非參數迴歸模型估計傾向值。
15.敏感性分析:分析結果在存在選擇性偏差的合理範圍內是否依然穩健有效。
16. 判斷敏感性分析的標準是:當τ數值越大,則該研究的敏感性越低;當τ數值越小時,則該研究的敏感性越高。一般來說,只要τ > 2.則該研究可以聲稱已免除隱藏性偏差的影響。
17.敏感性分析方法有Wilcoxon符號秩檢驗法和Hodges-Lehmann點估計和信號區間檢驗法、一般來說,使用任一項傾向值匹配分析法的研究的因果推論不受潛在性選擇性偏差的影響,就是一項完整且可信賴的研究。
18.研究者在處理分配隨機化以及控制其他可能影響處理和結果變量之共變量上,難免存在力所不逮之處,容易被挑出處理分配有選擇性偏差,遺漏控制某些重要共變量等數據上的問題,這種先天不足的數據問題,更是社會科學應用傾向值匹配法進行因果推論的根本性難題。

三、案例分析

1.經濟學中的內生性和外生性是什麼意思?
產生於經濟模型內部的變量就是內生變量,內生變量之間往往相互影響,即體現互爲變量與函數的關係;而外生變量來自於模型之外,往往是一些參數係數之類的,不會從模型內部得到。內生變量解決的問題是自足性的,外生變量依靠模型本身是回答不了的,要藉助外部數據。
2.兩配對樣本T檢驗(匹配平衡性檢驗):計算T檢驗相伴概率值,如果大於顯著性水平(設定值0.05或其他),則拒絕原假設,認爲兩總體均值不存在顯著性差異。
https://wenku.baidu.com/view/a6218a5315791711cc7931b765ce050876327529.html
3.相伴概率:相伴概率就是相應的統計量所對應的P值,他們是一一對應的,而且可以從兩個不同角度對假設檢驗的的原假設作出判斷。
4.因果性與相關性的理解:
a.因果性當然存在。大多數事情都有因果啊。就按常識理解。比如你學習努力和考試成績好就有因果性。
b.相關性很容易理解,也容易計算。但是有一個問題就是相關性沒有方向。 什麼意思呢?A 和 B 相關有可能是 A 導致 B 或者 B 導致 A。甚至是有一個隱藏的 C。A 和 C 相關,B 和 C 也相關。最後表現出來就是 A 和 B 也相關。但是他們的核心聯繫其實是在背後的 C。還有就是有時候 A 和 B 高度相關,但是其實完全沒有任何因果,他們的相關性只是湊巧而已。
c. 我們可利用相關性去發現可能存在的因果關係,然後利用已有方法去驗證因果性。
http://www.myzaker.com/article/5c5194ae77ac641196393b27/
5.社會領域研究進行因果推斷時必須解決“樣本非隨機選擇問題”,採用傾向分數匹配是一種隨機分配的替代策略,當隨機分配實驗操作不可行時,它可以儘可能地減少混淆變量對結果的影響。
6.內部一致性信度,又稱內部一致性係數,是指用來測量同一個概念的多個計量指標的一致性程度。
在這裏插入圖片描述
7.如果共變量在實驗組和對照組分佈存在着不平衡或重合的情況不佳,處理分配的隨機性就不能達成,獲得的處理效用就會有很大的偏差,這是傾向值分析法不可或缺的步驟。
8.傾向評分匹配估計的前提是處理組企業和對照組企業是否滿足“條件獨立性”假設:即當控制了匹配變量後,企業是否進口和其工資水平相互獨立。
9.傾向評分匹配估計結果的有效性取決於匹配變量是否滿足“共同支持條件”和“平衡性條件”。“共同支持條件”保證了處理組企業能夠通過傾向評分匹配找到與其相匹配的對照組企業。“平衡性條件”保證了匹配後的處理組企業和匹配成功的對照組企業在匹配變量上沒有顯著性差異。

傾向值分析:統計方法與應用

五. 傾向值匹配及相關模型

1.最大似然估計的目的就是:利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數值。
https://blog.csdn.net/qq_39355550/article/details/81809467
2.一個最佳的logistic迴歸模型應該將協變量平衡納入考慮,而對於傾向值估計以外的時間來說,這一點可能是也可能不是進行logistic迴歸的關鍵考慮。
3.仔細地選擇條件變量和logistic迴歸的一個正確設定對於傾向值匹配(考慮平衡性)來說非常關鍵。由於條件變量的選擇影響着傾向值上的平衡以及最終的干預效應估計值,因此,我們必須不遺餘力地保證傾向值的估計值已經考慮到所有實質上有關的因素並且以一種對模型設定錯誤不敏感的方式使用觀測數據。
4.匹配後各變量在實驗組和控制組之間是否變得平衡,也就是說實驗組和控制組協變量的均值在匹配後是否具有顯著差異。如果不存在顯著差異,則支持進一步的模型估計。
5.傾向性評分用來調整組間的差異,除了暴露/處理因素和結局變量分佈不同外,可認爲其他混雜因素都均衡可比,相當於進行了“事後隨機化”,使觀察性研究的數據達到了事後隨機分配的效果。
6.利用傾向性評分消除混雜因素影響的四種方法:傾向性評分匹配法,傾向性評分分層法,傾向性評分校正法,傾向性評分加權法
https://www.mediecogroup.com/method_topic_article_detail/134/
7.實例演示Stata軟件實現傾向性匹配得分(PSM)分析
a.傾向性匹配得分(PSM)分析,主流統計學軟件SAS、Stata、SPSS(22.0以上版本)、R語言均可實現。但SAS難度較高,不推薦;SPSS雖然操作簡便,但是僅能實現1:1匹配,如無特殊需求可以嘗試。筆者重點推薦使用Stata或者R語言完成PSM分析。下面筆者將以實例演示的形式講解Stata軟件在傾向性匹配得分中的應用。
b.理論上說只能對連續變量做均衡性檢驗,對分類變量的均衡性檢驗應該重新整理數據後運用χ2檢驗或者秩和檢驗等方法。
8.經濟學期刊排名
https://bbs.pinggu.org/forum.php?mod=viewthread&tid=4822715
9.獨立同分布:隨機變量X1和X2服從同一分佈,這意味着X1和X2具有相同的分佈形狀和相同的分佈參數,對離散隨機變量具有相同的分佈律,對連續隨機變量具有相同的概率密度函數,有着相同的分佈函數,相同的期望、方差。
10.干預組和對照組傾向評分值的對比,爲評價干預組和對照組的相似性提供了依據,因此也可以推斷估算方法的可信度。
11.傾向得分匹配中協變量的篩選
https://blog.csdn.net/arlionn/article/details/90108138
12. 傾向得分匹配法PPT

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章