论文翻译:常识性道德决策的计算模型

A Computational Model of Commonsense Moral Decision Making

摘要

我们介绍了一种通过学习和归纳人类道德判断来构建道德自主车辆的计算模型。我们借鉴了一个认知启发的模型,说明人们和年幼的孩子是如何从稀疏和嘈杂的数据中学习道德理论的,并将不同群体中不同人的观察结果整合在一起。自动驾驶汽车的道德学习问题被描述为学习如何使用效用演算来权衡困境的不同特征,目的是使这些权衡反映出人们是如何使自己陷入各种各样的道德困境的。通过在分层贝叶斯模型中对个人和群体的结构进行建模,我们表明可以从稀疏和有噪声的数据中推断出个人的道德价值观以及群体的共同价值观。我们使用道德机器(道德机器)的数据对我们的方法进行了评估,道德机器是一个收集人类对涉及自动驾驶汽车的道德困境的判断的网络应用程序,我们表明,该模型快速而准确地推断出人们的偏好,并可以从有限的数据中预测道德困境的难度。


1. 导言

机器学习的最新进展,特别是深度学习,在人类智能的各个领域都取得了令人印象深刻的成果,如计算机视觉[26]、机器翻译[30]和语音生成[21]。在像人类情感这样抽象的领域,深度学习已经显示出在自然语言文本中检测人类情感的熟练能力[7]。这些成就可能表明,深度学习也将为人工智能在伦理决策中铺平道路。

然而,训练深度学习模型往往需要大量的人类标记数据。尽管最近的进展使模型能够从较少的示例[24,29]中训练出来,但这一限制仍然是深度学习的一个关键挑战。此外,深度学习模型被批评为“黑箱”算法,无视解释的尝试[16]。许多深度学习算法在现实世界中应用于商业和政府的可行性受到质疑,因为欧盟最近的一项立法定于2018年生效,该立法将禁止自动决策,包括那些来自机器学习的决策,如果它们对相关人员造成“不利的法律影响”的话[9]。

与深度学习算法相比,来自人类认知研究的证据表明,人类能够从数量少得多的嘈杂和稀疏的例子中学习并做出预测[27]。此外,在道德领域,人们经常做出道德判断,因为他们能够清楚地表达和解释支撑他们决定的抽象原则。鉴于机器学习的当前状态与人类认知之间的巨大差异,我们如何利用认知科学的最新框架来设计人工智能,使其能够从与人类的有限互动中学习道德价值,并通过可解释的过程做出决定?

认知科学领域的最新框架假设,人类通过观察和与周围环境中其他人类的互动,沿着抽象的道德观念获取价值,从而学会做出道德决策[14]。这种方法将伦理决策描述为对一系列结果的选择最大化的效用,这些结果的价值是根据人们对抽象道德概念(如“亲属”或“互惠关系”)施加的权重计算出来的。此外,考虑到个人及其在群体中的成员身份的动态,该框架描述了个人的道德偏好以及由此产生的行动如何导致群体共同道德原则(即群体规范)的发展的过程。

在这项工作中,我们扩展了[14]介绍的框架,以探索涉及自动驾驶汽车的道德决策中学习偏好和人类偏见的计算模型。我们将道德判断描述为一个净效用最大化的决策函数,该函数计算人们在选择两难境地时所感知的价值的权衡。这些价值是人们对两难境遇的抽象维度施加的权重,我们称这些权重为道德原则。此外,我们将单个代理表示为与许多其他代理一起组成的组(群体)的成员,这些代理被假设具有相似的道德原则;这些共同的道德原则作为集合产生了组(群体)规范。
利用个体和群体的层次结构,我们展示了层次贝叶斯推理[8]如何提供一种强大的机制来从稀疏和噪声数据中快速推断个体在道德决策中的偏好以及群体规范。

我们通过道德机器(道德机器)的数据集将我们的模型应用于自动驾驶汽车(A V)领域,道德机器是一个收集人类在涉及AV的伦理困境中的判断的网络应用程序。1最近一项关于AV的公众情绪的研究表明,赋予人工智能人类的道德价值是AV能够被市场广泛采用之前的重要一步[4]。根据这项研究,我们认为应用我们的模型来证明道德偏好在道路伦理决策中的推论是朝着建立一个具有人们可以接受的道德价值观的AV迈出的重要一步。

本文在构建AVs伦理人工智能方面做出了以下几点独特的贡献:

  • 我们探索了一个道德学习的计算模型,并表明参数值对道德困境的抽象特征的推断能够更快地学习偏好和偏见。
  • 利用个体和群体的社会结构作为一个层次贝叶斯模型,我们证明了在有限的观察中,对个体和群体的道德偏好的推理是可以快速实现的。
  • 使用反应时间作为评估困境难度的替代指标,我们发现道德困境对人类法官具有不同程度的认知成本,为将人类判断的置信度水平纳入人类偏好的推断铺平了道路。

2. 道德机器数据

道德机器是一款网络应用程序,旨在收集和分析人类对涉及自动驾驶车辆的道德困境的看法。截至2017年10月,该应用程序已从全球180多个国家和地区的300多万名独立受访者那里收集了3000多万条回复。在这里,我们简要描述道德机器中道德困境和数据结构的设计。

图1

在一个典型的道德机器会话中,被调查者被展示了13个场景,如图1所示。在每个场景中,被调查者被要求从具有不同道德后果和不同权衡的两个结果中选择一个。场景可以包含20个字符的任意随机组合(参见图2),这些字符表示在一般人群中发现的各种人口统计属性。

图2

除了人口统计因素外,道德机器场景还包括角色作为乘客或行人的身份,以及角色作为闯绿灯或红灯的行人的身份。

除了受访者的决定外,还收集了关于他们对每个场景的响应持续时间(以秒为单位)和他们的大致地理位置的数据。这使我们可以推断访问的国家或地区。

每个场景都有两个选择,我们将其表示为具有两个可实现值{0,1}的随机变量YY。受访者转向(既,干预)的选择被表示为Y=1Y=1,同样,他们选择留下来(既,不干预)的选择被表示为Y=0Y=0。应答者的选择产生了这样一种状态,在该状态下,特定字符集被保存在另一字符集之上。结果状态由字符向量ΘyNK\Theta_{y} \in \mathbb{N}^{K},其表示选择yy的结果状态。

作为示例,我们在图3中显示了转弯的合成状态的向量表示。老人角色的向量元素由值2表示,表示将从选择转弯中拯救的两个老人角色。
此外,红灯特征的向量元素用值3表示,表示三个正在过红灯的行人。

图3


3. 道德困境的效用函数

现代功利主义伦理学的创始人杰里米·边沁(Jeremy Bentham)将道德困境中的伦理决定描述为在两难境地中对价值的权衡之和进行效用最大化的决定[2]。
最近,认知心理学家正式提出了使用效用函数来分析道德困境的想法,效用函数可以计算困境中的各种权衡[18,19]。
幼儿道德决策的证据表明,儿童通过计算价值与抽象概念之间的权衡来建立他们的道德判断基础[15]。

在这里,我们的目的是模拟被调查者如何根据他/她对道德困境的抽象维度(我们称之为道德原则)所赋予的价值观来做出他/她的决定。
例如,当受访者选择在场景中拯救女性医生角色而不是成年男性角色时,这一决定在一定程度上是因为受访者对医生这个抽象概念的重视,医生是社会中一个罕见而有价值的成员,为改善社会福利做出了贡献。
抽象的女性性别概念也将是他或她做出决定的一个因素。
在“道德机器”中,二十个人物有许多共同的抽象特征,如女性、老年人、非人类等。
因此,原始特征向量Θy\Theta_{y}通过特征映射F:ΘΛF: \Theta \rightarrow \Lambda可以在抽象特征空间中分解成一个新的向量ΛyND\Lambda_{y} \in \mathbb{N}^{D}其中DKD \leq K。在这项工作中,我们使用一个线性映射F(Θ)=AΘF(\Theta)=A \Theta其中AA18×2418 \times 24的二进制矩阵,如图4所示。

图4

如图5所示,道德机器角色空间Θ\Theta中的原始状态向量被映射到抽象特征空间Λ\Lambda中的新状态向量。我们注意到,oldold的向量元素由值3表示,表示具有该特征的三个字符。

图5

我们将道德原则定义为权重wRDw\in \mathbb{R}^D,既对应于DD抽象维度的Λ\Lambda的权重。这些权重表示受访者如何评估诸如年轻、年长或医生等抽象特征,以计算其选择的效用值。为简单起见,我们将状态的效用值建模为抽象维中特征的线性组合:

u(Θi)=wF(Θi) u\left(\Theta_{i}\right)=w^{\top} F\left(\Theta_{i}\right) (1)

在选择不干预和干预的效用值得情况下,受访者的干预决定Y=1Y=1被视为基于在两个选择的净效用的Sigmoid函数的概率结果:

P(Y=1Θ)=11+eU(Θ) P(Y=1 | \Theta)=\frac{1}{1+e^{-U(\Theta)}} (2)

其中

U(Θ)=u(Θ1)u(Θ0) U(\Theta)=u\left(\Theta_{1}\right)-u\left(\Theta_{0}\right) (3)

我们将注意力从对受访者在道德困境中的决策的稀疏和嘈杂的观测中,转向推断他们的个人道德原则。


4. 等级道德原则

人类学家的研究表明,不同地区和不同时期的社会对什么行为是道德的看法大相径庭[3,12,13]。例如,某些社会强烈强调对老年人的尊重,而另一些社会则侧重于保护年轻人。社会中的这些观点就是我们所说的社会的群体规范。

尽管如此,即使在文化和种族构成相同的社会中,群体中的个别成员也可以持有独特和不同的道德标准[11]。我们如何模拟群体规范和个人道德原则之间的复杂关系?

我们引入了分层道德原则模型,它是分层贝叶斯模型的一个实例。回到道德机器中的数据,考虑属于gGg\in GNN个受访者。这个群体可以是一个国家、一种文化或一个共享风俗和规范的地区。

被调查者ii的道德原则是从一个多元正态分布中得出的,该多元正态分布由DD维上wgw^g组的平均值参数化:

wiNormalD(wg,Σg) w_{i} \sim \operatorname{Normal}_{D}\left(w^{g}, \Sigma^{g}\right) (4)

其中协方差矩阵上g\sum^g的对角线表示沿着抽象维度的群组成员之间的组内方差或差。较高方差描述了沿着相应抽象维度的更广泛的意见多样性。此外,协方差(非对角线)值捕获了它们放在抽象维度上的值之间关系的强度。例如,高度重视婴儿期的文化也应该重视怀孕,因为它们在直觉上密切相关的概念。
协方差矩阵允许贝叶斯学习者理解相关概念,并在推断出高度相关的维度后,利用该关系快速逼近一个维度的值。

w={w1,,wi,,wN}\mathbf{w}=\left\{w_{1}, \dots, w_{i}, \dots, w_{N}\right\}NN个受访者的一套独特的道德原则。每个受访者ii对场景Θ={Θ11,,Θit,,ΘNT}\mathbf{\Theta}=\left\{\Theta_{1}^{1}, \ldots, \Theta_{i}^{t}, \ldots, \Theta_{N}^{T}\right\}a=做出判断。受访者ii的判断是随机变量YitY_i^t的一个实例。在观测到状态集合Θ\Theta和决策YY的情况下,关于道德原则集合的后验分布如下:

P(w,wg,ΣgΘ,Y)P(Θ,Yw)P(wwg,Σg)P(wg)P(Σg) \begin{aligned} P\left(\mathbf{w}, w^{g}, \Sigma^{g} | \mathbf{\Theta}, \mathbf{Y}\right) \propto P(\Theta, Y | \mathbf{w}) P\left(\mathbf{w} | w^{g}, \Sigma^{g}\right) \\ P\left(w^{g}\right) P\left(\Sigma^{g}\right) \end{aligned} (5)
其中,可能性是:

P(Θ,Yw)=i=1Nt=1Tptiyit(1pti)(1yit) P(\Theta, Y | \mathbf{w})=\prod_{i=1}^{N} \prod_{t=1}^{T} p_{t i}^{y_{i}^{t}}\left(1-p_{t i}\right)^{\left(1-y_{i}^{t}\right)} (6)

其中,pti=P(Yit=1Θt)p_{t i}=P\left(Y_{i}^{t}=1 | \Theta^{t}\right)是受访者在给定Θt\Theta_t的情况下选择在场景tt中转向的概率,如公式2所示。模型的图形表示如图6所示。

图6

作为说明,我们从丹麦随机抽取了99名受访者,相当于1287份响应数据。我们用参数η=2\eta=2的LKJ协方差矩阵指定了协方差矩阵P(g)P(\sum^g)上的先验:

ΣgLKJ(η) \Sigma^{g} \sim L K J(\eta) (7)

先验群体权重P(wg)P(w^g)

wgNormalD(μ,Σg) w^{g} \sim \operatorname{Normal}_{D}\left(\mu, \Sigma^{g}\right) (8)

其中μ=0\mu=0

我们推断出个人道德原则以及群体价值观wgw^g和协方差矩阵g\sum^g。这些结果如图7所示。

图7

我们注意到丹麦受访者的三个代表性子样本在推断的道德原则上的差异。

4.1 预测个人判断

作为评估我们的模型的一种手段,我们进行了样本外预测测试。我们从道德机器网站上随机选择了1万名受访者,他们至少完成了一个会话,其中包含13个场景。我们仅过滤了受访者的前十三种情况,以汇编包含130,000个决策的数据集。

我们将模型的预测准确性与三个基准进行了比较。基准测试1对“道德机器”中人物的集体价值进行建模,从而使一个状态的效用计算为

u(Θ)=wcΘ u(\Theta)=w^{c \top} \Theta (9)

其中wcRKw^c\in \mathbb{R}^K。基准测试1将权重建模为

wcNormalK(μ,σ2I) w^{c} \sim N o r m a l_{K}\left(\mu, \sigma^{2} I\right) (10)
并且不包括组层次或字符(characters)和因素(例如红绿灯、乘客等)上的权重之间的协方差。

基准2建立在基准1的基础上,沿着抽象道德维度Λ\Lambda将值建模维wfNormalD(μ,σ2I)w^f\sim N o r m a l_D(\mu,\sigma^2I)。组层次结构和权重之间的协方差被忽略。

最后,基准3对每个受访者的个人道德原则建模为wilNormalD(μ,σ2I)w_i^l\sim N o r ma l_D(\mu,\sigma^2I),但不包括层次结构。因此,每个应答者都被视为一个独立的代理人,在这种情况下,推断一个应答者的价值观并不能洞察另一个应答者的价值观。

为了证明准确率的提高,我们通过改变N=(4,8,16,32,64,128)N=(4,8,16,32,64,128)的样本受访者数量,在不同大小的训练数据上测试了模型。我们使用来自每个受访者的前八个判断作为训练数据,并测试了每个代理对其余5个响应的预测准确性。对于我们的模型,我们假设大小为NN的抽样调查对象属于一组。

结果(图8)显示,随着受访者数量(既训练数据)的增加,我们的模型(基准1和基准2)的预测精度提高。基准3的准确性并未提高,因为被调查者的数量与个人被调查者价值观的推论无关。

图8

然而,分层道德原则模型显示,随着训练数据大小的增加,准确率不断提高。

我们注意到,基准1和基准2之间的改进幅度显示了抽象和缩减尺寸所获得的收益。基准2和我们的模型之间的差额揭示了纳入个人道德原则的好处。最后,基准测试3和我们的模型之间的差值表明了群体层次结构所实现的增益。

4.2 反应时间

关于人类决策的研究发现,决策的置信度与决策的反应时间(即反应时间)之间存在很强的关系[1、5、25]。这些研究表明,当证据水平较低时,二元决策任务中的人类受试者需要较长时间才能做出决策。 在本节中,我们采用这种方法来证明我们的模型准确地反映了反应时间和道德困境的难度之间的关系。

我们从美国抽取了1727名访问道德机器的受访者,总共对应了22451个判断。除了判断决定之外,我们还测量了受访者做出决定所需的响应时间(RT)(以秒为单位)。由于实验的无人监督的性质,受访者可以自由地在稍后停止并重新参与;因此,我们从分析中剔除了耗时超过120秒的响应。根据判断数据,在推断了个体受访者的道德原则后,我们计算了公式2中定义的每种情景的估计转向概率(例如,pit=P(Yit=1Θit)p_i^t=P(Y_i^t=1|\Theta_i^t))。我们使用pt0.5|p^t-0.5|计算了新的度量,既决策确定性。

绘制场景的决策和响应时间确定性图(参见图9)可以直观地显示两个变量之间的关系模式。

图9

确定性较高的情景代表那些在困境中有明确取舍的情景,因此受访者平均对困境的反应更快。同样,确定性较低的场景是那些权衡不明确的场景,这样受访者对自己的决定就不那么有信心了。直观地说,解决权衡的模糊性需要更大的认知成本,这表明受访者的响应时间更长。

我们认为反应时间和模型中估计的决策确定性之间的关系是一个支持性的证据,表明该模型是人们如何解决道德困境的一个强有力的代表。此外,基于价值的决策过程的认知成本在他们的反应时间中被揭示,这是一个可以在推理中使用的额外信息。例如,我们看到一个人快速做出决定,然后我们可能还会得到关于这两个选择之间的相对价值差异的信息。在未来的工作中,我们打算将响应时间信息整合到学习过程中,让学习者能够更快地推断。


5. 讨论

借鉴最近的道德学习建模框架,我们提出了一个推断人类决策者在道德困境中的偏见和偏好的计算模型。我们使用道德机器的数据演示了该模型在自动驾驶车辆领域的应用。我们发现,分层贝叶斯推理提供了一种强大的机制,可以沿着抽象维度准确地推断个人偏好和群体规范。
最后,我们展示了该模型成功地捕捉到了解决道德困境中权衡的认知成本。
我们发现,根据该模型很难预测人类判断的道德困境与较长的响应时间相关,在这种情况下,响应时间可以代表困境的难度。

在这项工作中,我们遗漏了任何关于如何聚合个人道德原则和群体规范来设计人工智能Agent的规范性讨论,该Agent做出优化系统中所有其他Agent的社会效用的决策。最近,[20]提出了一种集合个体偏好的新方法,使得集合后的决策能确保全局效用最大化。我们认为这种方法是对我们工作的自然补充。

我们工作的另一个有趣的扩展是探索将可观测数据映射到抽象特征空间的机制。我们将这个过程形式化为特征映射:F:ΘΛF:\Theta \rightarrow \Lambda。来自发展心理学的证据表明,儿童在成长过程中会获得抽象知识并形成归纳约束[6,10]。非参数贝叶斯过程,如印度巴菲特过程[28]及其变体[22],也是在道德领域学习特征映射的有前途的模型。

我们以反应时间作为衡量决策难度的指标,提出反应时间可以作为额外的信息,更准确地推断被调查者的个体道德原则。将我们目前的模型与漂移扩散模型[23]相结合,可以得到一个更丰富的模型,来描述道德决策中的信心和错误。AI代理需要了解人们行为的道德基础,包括人们何时出于社会不当的道德价值观以及何时因过快而犯错。
例如,如果AI代理发现某个人花了很长时间做出最终错误的决定,则AI代理应合并该人的置信度和错误率,以准确推断该人可能犯了一个错误。 。

最后,我们使用相同的数据来源来推断抽象的道德原则,并检验模型的预测能力。
然而,“道德机器”中人物和因素的抽象维度并不局限于“道德机器”数据集,甚至也不局限于AV领域。
一个有趣的实验将是在不同情况下跨各种道德困境测试模型。
像这里研究的那样的分层贝叶斯模型已经成功地用于迁移学习中。 展示从一个领域学习道德原则并将这些原则应用于其他领域的道德决策的能力,是发展类似人类的道德AI的关键挑战。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章