RDD 最新進展：多斷點 RDD、多分配變量 RDD

連享會：內生性問題及估計方法專題

作者：亢延錕 (中央財經大學)

Stata 連享會：知乎 | 簡書 | 碼雲 | CSDN

Stata連享會計量專題 || 精品課程 || 簡書推文 || 公衆號合集

文章目錄

連享會：內生性問題及估計方法專題

關於我們

1. 簡介

謝謙等 (2019) 對目前學術界斷點回歸 (regression-discontinuity designs) 應用的最新進展做了詳細的綜述，但他們側重於強調在五大期刊中出現的應用，對還未在五大上出現的多配置變量 RDD (RDD with assignment variables)、分位數 RDD 、拐點迴歸設計 (regression kink designs)、多斷點RDD (RDD with multiple cutoffs)、遠離斷點處的處理效應的識別方法( methods for extrapolation away from the cutoff)、離散型配置變量 RDD 等新進展未做涉及。

這篇推文主要結合幾篇文章對多配置變量 RDD 、多斷點 RDD 和遠離斷點處的處理效應這幾種情況的核心思想和文章的主要結論做一大體介紹。值得一提的是，assignment variable 又叫 running variable 和 forcing variable，中文被翻譯成配置變量、分配變量、驅動變量、分組變量等不同叫法。在國內大家的使用也各有不同，張川川和陳斌開 (2015) 使用特徵變量或驅動變量，鄒紅和喻開志 (2015) 、雷曉燕等 (2010) 、張川川等 (2014) 也使用驅動變量的說法，黃新飛等 (2014) 和李宏斌等 (2014) 使用運行變量的叫法，秦學徵等 (2018) 使用指派變量，劉生龍等 (2016) 使用設計變量的翻譯，但是其含義都是一樣。

2. 允許有多個分配變量的 RDD

Wong et al. (2013) 介紹了一個多配置變量的斷點回歸 (multivariate regression-discontinuity design) ，即可以允許有多個配置變量和斷點。文章中以有兩個配置變量的 MRDD 爲例，指出臨界平均處理效應 (frontier average treatment effect) 可以被分解成兩個單變量 RDD 效應的加權平均，並介紹了邊界法 (frontier approach) 、中心化方法 (centering approach) 、單變量方法 (univariate approach) 和工具變量方法 (IV approach) 四種估計方法及其優劣。

舉個例子，假設學校要開設一個補習班，如果學校要求閱讀成績低於 60 分的同學參加，那麼我們可以用傳統的斷點回歸來評估補習班的效果。如果學校要求閱讀成績和數學成績有任何一個低於 60 分，都要參加補習班。這時如果還需要評估補習班的作用，傳統的斷點回歸方法就不適用了，而要使用上文提出的多多配置變量的斷點回歸 (MRDD) 。

圖 1

如上圖所示，T1 部分是閱讀成績不達標的同學，T3 是數學成績不達標的同學，T2 是都不達標的同學。在這種情況下，會有三個處理效應，首先根據傳統 RD 的思路，會在閱讀成績和數學成績 60 分處形成兩個特定邊界效應 (frontier-specific effect) ，另外一個是邊界平均處理效應 (frontier average treatment effect) ，即總體的平均效應，用潛在因果框架可以寫成：

$\tau_{\mathrm{MRD}}=E\left[Y_{i}(1)-Y_{i}(0) |\left(R_{i}, M_{i}\right) \in F\right] \tag{1}$

Wong et al. (2013) 指出，邊界平均處理效應可以被分解成兩個特定邊界效應的加權平均值，即：

$\begin{aligned} \tau_{\mathrm{MRD}} &=E\left[G_{i} |\left(R_{i}, M_{i}\right) \in F\right]=w_{R} E\left[G_{i} | R_{i} \in F_{R}\right]+w_{M} E\left[G_{i} | M_{i} \in F_{M}\right] \\ &=w_{R} \tau_{R}+w_{M} \tau_{M} \end{aligned} \tag{2}$

正因爲如此，MRDD 要求在兩個獨立的斷點處，滿足傳統 RD 的所有假設，同時，MRDD 估計的有效性還高度依賴於配置變量的度量和標準差。例如，當兩個配置變量是收入和年齡時，當收入的單位由萬元改爲元時，收入處的處理效應在平均處理效應中的權重也會改變，從而使 MRDD 的平均處理效應的估計發生改變，類似的，對配置變量的極端值的處理也會產生相同的影響。

對於 MRDD 的四種估計方法 Frontier Approach，Centering Approach ，Univariate Approach 和 IV Approach，這四種方法的做法各異，依賴的前提假設也不同，限於篇幅原因，感興趣的同學可以詳細閱讀文章的第三部分。在這裏根據文章對四種方法的優劣做簡單的總結。

Frontier Approach 的優點在於可以同時估計所有的處理效應 ( $\tau_{\mathrm{MRD}}$ , $\tau_{M}$ ,和 $\tau_{R}$ )，因此可以識別異質性處理效應，同時比 Centering Approach更有效率，即擁有更小的標準誤。缺點在於依賴於對響應面和核密度進行正確估計的強假設，並且進行數值積分的非參數估計十分繁瑣。

Centering Approach 的優點在於使用相對容易的方法處理具有許多配置變量的 MRDD ，因爲這一方法的本質是一個降維的過程。缺點在於降維的過程掩蓋了處理效應的異質性，並且這一過程依賴於較爲複雜的方程形式來刻畫配置變量和結果變量之間的關係，不如 Frontier Approach 有效。

Univariate Approach 的優點在於可以直接計算和發現處理效應的異質性，比 IV 方法更有效率，即擁有更小的標準誤。缺點是不能計算 $\tau_{\mathrm{MRD}}$ 。IV Approach 的優點尚不明確，缺點是尚未有實證研究證明這一方法的有效性，同時也比 Univariate Approach 的效率更低。

接下來做一個簡單總結：

對於 MRDD 的經濟意義需要研究者謹慎考慮，在許多情況下，邊界平均治療效果可能沒有一個有意義的解釋。如果在一個邊界，估計表明沒有影響，在另一個邊界，顯示出有顯著的積極影響，那麼的平均影響取決於一個與單位和度量相關的加權方案。
如果沒有相當強的假設，MRDD 中 $\tau_{M}$ 和 $\tau_{R}$ 的估計一般性要遠小於傳統的斷點回歸，同時在 MRDD 中估計的仍然是一個局部平均處理效應 (LATE) 。
作者不建議使用 IV 進行估計，雖然在滿足分析假設的情況下，它會產生無偏估計，但文章的模擬結果表明，與其他三種方法相比，IV 方法降低了統計精度，同時在文章中模擬環境中，IV方法也沒有展現出其他一些比較優勢。

3. 允許有多個拐點的 RDD

在傳統的斷點回歸設計中，研究者往往根據斷點來估計 LATE 來進行因果效應的識別，但是在實際情況中斷點的數量可能並不唯一，比如要研究國家貧困縣補貼的影響，但是不同省份貧困縣的標準不一樣，在使用 RD 時便會出現多個斷點的情況，此時可以對其進行標準化之後在進行傳統 RD 的操作，但是這種處理方式的具體形式和經濟意義仍然值得商榷，並且研究者同樣失去了對不同斷點異質性的考察。

利用 Cattaneo et al. (2016) 文中的一個例子，在一個兩黨制的選舉中，50% 的得票率自然而然可以被當作勝選的斷點，但是在有三個或三個以上政黨參與的選舉中，可能勝選的政黨得票率不超過40%也是極有可能的，這種情況在在政治學研究中普遍存在，這也是促使作者探究允許多個斷點存在的rd的主要原因。

Cattaneo et al. (2016) 指出，在一系列嚴格的假設下，這種將多個斷點標準化的做法所得到的效應仍然是多個斷點效應的加權平均值，並且權重取決於在各斷點附近樣本觀察值的多少。作者在文中指出，允許多個斷點 RDD 的估計方法在一定的假設下可以改寫成上文介紹的多個配置變量的 RDD, 並在文中介紹了相應的估計方法。

作者在文中還給予研究者一些對允許多個斷點 RDD 的使用建議，作者認爲應該先畫圖，看看樣本分佈圖是否很直觀的存在多個斷點，如果分佈中大量樣本集中於一個斷點，也可以視同使用單個斷點進行傳統的斷點回歸，當確實存在多個斷點時，研究者可以有以下幾個處理方法：

可以使用單個斷點的估計方法，直接忽略不同斷點之間的異質性問題，或者假設每個斷點的效應都是一樣的，當然這需要結合理論和具體問題進行論述。
研究者可以承認異質性的存在，但聲明我們關注的重點是平均處理效應，異質性問題並不重要。
可以先用單個斷點的迴歸方法，再將另外一部分集中於第二個斷點附近的樣本剔除，如果迴歸結果不發生大的變化，則有理由相信這樣的處理是合理的。

如果最後要使用多個斷點的 RDD，則必須要確定斷點是否是累積的，如果斷點是累積的，那麼每一個樣本面臨的斷點是配置變量的一個確定的函數，那麼這就使得斷點回歸中樣本分組不能是內生的假設無法滿足。

4. 遠離斷點處的處理效應

我們知道，RD 估計的是一個局部平均處理效應 (LATE)，這僅對斷點兩側的樣本有意義，離斷點較遠的樣本實際上並不參與處理效應的識別。有時候 RD 估計的 LATE 本身是重要的，例如該不該給數學和閱讀不及格的孩子上補習課，但是有時候這個 LATE 對於政策執行者的意義仍然不足。比如這一結果不能說明是否對所有孩子都上補習班也有相同的效果，這就是一個政策是否可以推廣的問題。可惜傳統的 RD 並不能回答這一問題。

Cattaneo et al. (2018) 在一個一個允許多個斷點回歸的框架下構造了一個處理效應的合理外推，這一思路借鑑了雙重差分方法的思路，核心是解決潛在因果識別中的數據缺失問題。

圖 2

如圖 2 所示，一個擁有兩個斷點的 RDD, 一部分樣本在 l 處斷開，一部分樣本在 h 處斷開，此時根據上文的介紹，我們可以得到 $l$ 和 $h$ 處的處理效應 (frontier-specific effect) $\tau_{\ell}(\ell)$ 和 $\tau_{h}(h)$ ，這兩個處理效應仍然是一個靠近 $l$ 和 $h$ 處的 LATE。一個問題是，如果我們想將這一處理效應合理外推至 $\overline{x}$ 處，即我們想估計 $\tau_{\ell}(\overline{x})$ ，該如何實現呢？

圖 3

看到 圖 3，熟悉雙重差分方法的讀者可以很容易理解作者外推的思路。作者需要估計 $\tau_{\ell}(\overline{x})$ ，必須要得到 $a$ 點和 $b$ 點的數值，很顯然b點是觀測不到的，也就是反事實的。因爲這部分樣本中凡是大於 $l$ 的樣本都進行了處理，因此要想將處理效應外推至 $\overline{x}$ 處，必須要解決的是 $b$ 點數據缺失的問題。

從 圖 3 中可以看到，我們可以觀測的點是 $a$ 、 $c$ 、 $d$ 和 $e$ 。其中， $d$ 和 $e$ 是在 $h$ 處斷開的另一部分樣本。很顯然，如果 $B(\ell)=B(\overline{x})$ ，那麼 $a$ 和 $b$ 之間的距離，也就是 $\tau_{\ell}(\overline{x})$ ，可以被寫作：

$\begin{aligned} \overline{a c}-\overline{e d} &=\left\{\mu_{1, \ell}(\overline{x})-\mu_{0, \ell}(\overline{x})\right\}-\left\{\mu_{0, \ell}(\ell)-\mu_{0, \hbar}(\ell)\right\} \\ &=\left\{\tau_{\ell}(\overline{x})+B(\overline{x})\right\}-\{B(\ell)\} \\ &=\tau_{\ell}(\overline{x}) \end{aligned} \tag{3}$

此時，在估計 $\tau_{\ell}(\overline{x})$ ，所有的點都是可觀測的。但是同時，正如雙重差分方法一樣，這種外推同樣嚴格依賴於共同趨勢的假設，即在不同斷點處的樣本組，擁有共同的發展趨勢。

5. 參考文獻

Wong, V. C., P. M. Steiner, T. D. Cook, 2013, Analyzing regression-discontinuity designs with multiple assignment variables:A comparative study of four estimation methods, Journal of Educational and Behavioral Statistics, 38 (2): 107-141. [PDF]
Cattaneo, M. D., L. Keele, R. Titiunik, G. Vazquez-Bare, 2016, Interpreting regression discontinuity designs with multiple cutoffs, The Journal of Politics, 78 (4): 1229-1248. [PDF1]，[Supplemental Material]，[論文重現資料]
Cattaneo, M. D., L. Keele, R. Titiunik, G. Vazquez-Bare, 2018, Extrapolating treatment effects in multi-cutoff regression discontinuity designs, arXiv preprint arXiv:1808.04416.，[PDF]。
謝謙, 薛仙玲, 付明衛. 斷點回歸設計方法應用的研究綜述[J]. 經濟與管理評論, 2019, 35(02): 69-79.
劉生龍, 周紹傑, 胡鞍鋼. 義務教育法與中國城鎮教育回報率: 基於斷點回歸設計[J]. 經濟研究, 2016, 51(02): 154-167.
鄒紅, 喻開志. 退休與城鎮家庭消費: 基於斷點回歸設計的經驗證據[J]. 經濟研究, 2015, 50(01): 124-139.
黃新飛, 陳珊珊, 李騰. 價格差異、市場分割與邊界效應——基於長三角15個城市的實證研究[J]. 經濟研究, 2014, 49(12): 18-32.
張川川, 陳斌開. 社會養老能否替代家庭養老? ——來自中國新型農村社會養老保險的證據[J]. 經濟研究, 2014, 49(11): 102-115.
秦雪徵, 莊晨, 楊汝岱. 計劃生育對子女教育水平的影響——來自中國的微觀證據[J]. 經濟學(季刊), 2018, 17(03): 897-922.
張川川, John Giles, 趙耀輝. 新型農村社會養老保險政策效果評估——收入、貧困、消費、主觀福利和勞動供給[J]. 經濟學(季刊), 2015, 14(01): 203-230.
李宏彬, 施新政, 吳斌珍. 中國居民退休前後的消費行爲研究[J]. 經濟學(季刊), 2015, 14(01): 117-134.
雷曉燕, 譚力, 趙耀輝. 退休會影響健康嗎? [J]. 經濟學(季刊), 2010, 9(04): 1539-1558.

關於我們

「Stata 連享會」 由中山大學連玉君老師團隊創辦，定期分享實證分析經驗，公衆號：StataChina。
公衆號推文同步發佈於 CSDN 、簡書和知乎Stata專欄。可在百度中搜索關鍵詞「Stata連享會」查看往期推文。
點擊推文底部【閱讀原文】可以查看推文中的鏈接並下載相關資料。
歡迎賜稿： 歡迎賜稿。錄用稿件達三篇以上，即可免費獲得一期 Stata 現場培訓資格。
E-mail： [email protected]
往期推文：計量專題 || 精品課程 || 簡書推文 || 公衆號合集

RDD 最新進展：多斷點 RDD、多分配變量 RDD

連享會：內生性問題及估計方法專題

文章目錄

1. 簡介

2. 允許有多個分配變量的 RDD

3. 允許有多個拐點的 RDD

4. 遠離斷點處的處理效應

5. 參考文獻

關於我們

畢業季10分鐘Markdown簡歷——在線美觀易變

Stata：畢業論文大禮包 A——實證結果輸出命令大比拼

Stata: 因變量是類別變量時採用什麼方法估計？

Stata 可重複性報告系列A：動態文檔命令 (dyn*)

珠聯璧合 I：Jupyter Notebook 和 Stata 關聯 (windows系統)

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結