选择性偏差

选择性偏差又被称为选择效应，社会科学研究中是指在对个体、群体或数据分析中，样本无法体现出总体的代表性特征。

选择性的偏差会导致我们对政策效应的识别出现偏误，因为我们简单地拿实验组平均值和对照组平均值对比会出现的问题，组间的简单平均值的差=实际的政策效果+选择性偏差。

例子一：美国平价医疗法案，该法案核心思想即鼓励大家自己出钱购买医疗保险。此方案对医疗保险的刺激作用很大，因为不买的话就相当于出钱请别人看病。如此巨额投入的背后，美国人的身体也并不见得比其他国家的人健康，比如肥胖问题。那么医疗保险的购买到底对于健康会不会有促进作用呢？
早期的研究是基于美国医疗保险问卷，但与自然科学实验不同的是，在这项社会科学实验中，我们可以看到参保人本人的身体健康状况，却无法得知如果“一模一样”的人不参加保险，那么身体健康会如何。即真正实现“苹果和苹果比”，“橘子和橘子比”。很多时候可能只是拿“苹果和橘子比”。这显然称不上”其他变量一致“。
在观察问卷数据时，会发现参与保险的人，似乎普遍学历较高。这意味着更自制，保持相对较好的生活习惯，不容易吸烟，更看重身体等。这些原因实际已经解释了大部分为什么实验者的平均值会高于对照组。

例子二：小明健康初始值3，从南方到北京读大学，被告知每年200元获得医保，看病报销一大部分。小明心想自己身体不好，北方又冷可能会常生病，于是购买医保，购买后健康值变为4。小红健康初始值5，从大东北到北京上学，同样的被告知医保事宜。小红身体本来就不错，北京又比较暖和，就不购买医保，健康值仍然是5。
如果只看数据，不购买医保健康值5，购买了医保健康值4，很容易得出购买医保会让健康值降低的反事实结论。这也体现了选择性误差：身体不好的人会更倾向于购买医保。

例子一中选择性偏差导致我们“高估”医保效果，例子二中选择性偏差导致我们“低估”医保效果。这说明很多时候即使我们有很好的控制变量帮助我们控制一些潜在的因素，也不能确保我们看不到的因素会不会产生新的选择性偏差。这样就会使得我们在判断政策效果时，无法保证"Ceteris Paribus"的条件。

对于解决这个问题，最简单和可靠的方法就是：随机实验。如果有一个上帝在随机地抛硬币，告诉你你到底是选择接受保险还是不受，那就不存在这样的选择偏差的问题了。即选择偏差的问题在于具备一定特质的人会主动选择去成为某种类别。但是如果无法主动选择，而是由上帝随机地掷硬币来决定你的选择，那就不存在偏差的问题了（颢卿，2019）。

同时对选择选择性偏差的关注，可以澄清以下5个认知问题（臧雷振和陈鹏，2015）：
第一，选择性偏差是否会高估因果关系？
由上面的例子可以看出，可能低估，也可能高估

第二，选择性偏差是否是一种误差？

参考资料：
1.颢卿在真知灼见的分享

我正在「真知拙见KnowledgeHot」和朋友们讨论有趣的话题，你⼀起来吧？
https://t.zsxq.com/n2zjyBe
2.臧雷振,陈鹏.选择性偏差问题及其识别[J].世界经济与政治,2015(04):137-153+159-160.

公司刚入职了一名 Java 中级开发，短短 4 行代码居然凑齐了 3 个 bug！我哭了~~

Nginx R31 doc-13-Limiting Access to Proxied HTTP Resources 访问限流

python包：pandas

中外程序员到底有啥区别？

Python数据分析与挖掘实战（5章）

一、什么是Docker

C++文件/流

二、Docker 组件

揹包九讲一 01揹包

今天！通义灵码在北京、成都、杭州三城开讲啦

離散時間：一階差分

MySQL入門（一）：MySQL 安裝與數據庫基礎

關於學術新媒體精選站

動態規劃

兩期經濟模型

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結