A Computational Model of Commonsense Moral Decision Making
摘要
我們介紹了一種通過學習和歸納人類道德判斷來構建道德自主車輛的計算模型。我們借鑑了一個認知啓發的模型,說明人們和年幼的孩子是如何從稀疏和嘈雜的數據中學習道德理論的,並將不同羣體中不同人的觀察結果整合在一起。自動駕駛汽車的道德學習問題被描述爲學習如何使用效用演算來權衡困境的不同特徵,目的是使這些權衡反映出人們是如何使自己陷入各種各樣的道德困境的。通過在分層貝葉斯模型中對個人和羣體的結構進行建模,我們表明可以從稀疏和有噪聲的數據中推斷出個人的道德價值觀以及羣體的共同價值觀。我們使用道德機器(道德機器)的數據對我們的方法進行了評估,道德機器是一個收集人類對涉及自動駕駛汽車的道德困境的判斷的網絡應用程序,我們表明,該模型快速而準確地推斷出人們的偏好,並可以從有限的數據中預測道德困境的難度。
1. 導言
機器學習的最新進展,特別是深度學習,在人類智能的各個領域都取得了令人印象深刻的成果,如計算機視覺[26]、機器翻譯[30]和語音生成[21]。在像人類情感這樣抽象的領域,深度學習已經顯示出在自然語言文本中檢測人類情感的熟練能力[7]。這些成就可能表明,深度學習也將爲人工智能在倫理決策中鋪平道路。
然而,訓練深度學習模型往往需要大量的人類標記數據。儘管最近的進展使模型能夠從較少的示例[24,29]中訓練出來,但這一限制仍然是深度學習的一個關鍵挑戰。此外,深度學習模型被批評爲“黑箱”算法,無視解釋的嘗試[16]。許多深度學習算法在現實世界中應用於商業和政府的可行性受到質疑,因爲歐盟最近的一項立法定於2018年生效,該立法將禁止自動決策,包括那些來自機器學習的決策,如果它們對相關人員造成“不利的法律影響”的話[9]。
與深度學習算法相比,來自人類認知研究的證據表明,人類能夠從數量少得多的嘈雜和稀疏的例子中學習並做出預測[27]。此外,在道德領域,人們經常做出道德判斷,因爲他們能夠清楚地表達和解釋支撐他們決定的抽象原則。鑑於機器學習的當前狀態與人類認知之間的巨大差異,我們如何利用認知科學的最新框架來設計人工智能,使其能夠從與人類的有限互動中學習道德價值,並通過可解釋的過程做出決定?
認知科學領域的最新框架假設,人類通過觀察和與周圍環境中其他人類的互動,沿着抽象的道德觀念獲取價值,從而學會做出道德決策[14]。這種方法將倫理決策描述爲對一系列結果的選擇最大化的效用,這些結果的價值是根據人們對抽象道德概念(如“親屬”或“互惠關係”)施加的權重計算出來的。此外,考慮到個人及其在羣體中的成員身份的動態,該框架描述了個人的道德偏好以及由此產生的行動如何導致羣體共同道德原則(即羣體規範)的發展的過程。
在這項工作中,我們擴展了[14]介紹的框架,以探索涉及自動駕駛汽車的道德決策中學習偏好和人類偏見的計算模型。我們將道德判斷描述爲一個淨效用最大化的決策函數,該函數計算人們在選擇兩難境地時所感知的價值的權衡。這些價值是人們對兩難境遇的抽象維度施加的權重,我們稱這些權重爲道德原則。此外,我們將單個代理表示爲與許多其他代理一起組成的組(羣體)的成員,這些代理被假設具有相似的道德原則;這些共同的道德原則作爲集合產生了組(羣體)規範。
利用個體和羣體的層次結構,我們展示了層次貝葉斯推理[8]如何提供一種強大的機制來從稀疏和噪聲數據中快速推斷個體在道德決策中的偏好以及羣體規範。
我們通過道德機器(道德機器)的數據集將我們的模型應用於自動駕駛汽車(A V)領域,道德機器是一個收集人類在涉及AV的倫理困境中的判斷的網絡應用程序。1最近一項關於AV的公衆情緒的研究表明,賦予人工智能人類的道德價值是AV能夠被市場廣泛採用之前的重要一步[4]。根據這項研究,我們認爲應用我們的模型來證明道德偏好在道路倫理決策中的推論是朝着建立一個具有人們可以接受的道德價值觀的AV邁出的重要一步。
本文在構建AVs倫理人工智能方面做出了以下幾點獨特的貢獻:
- 我們探索了一個道德學習的計算模型,並表明參數值對道德困境的抽象特徵的推斷能夠更快地學習偏好和偏見。
- 利用個體和羣體的社會結構作爲一個層次貝葉斯模型,我們證明了在有限的觀察中,對個體和羣體的道德偏好的推理是可以快速實現的。
- 使用反應時間作爲評估困境難度的替代指標,我們發現道德困境對人類法官具有不同程度的認知成本,爲將人類判斷的置信度水平納入人類偏好的推斷鋪平了道路。
2. 道德機器數據
道德機器是一款網絡應用程序,旨在收集和分析人類對涉及自動駕駛車輛的道德困境的看法。截至2017年10月,該應用程序已從全球180多個國家和地區的300多萬名獨立受訪者那裏收集了3000多萬條回覆。在這裏,我們簡要描述道德機器中道德困境和數據結構的設計。
在一個典型的道德機器會話中,被調查者被展示了13個場景,如圖1所示。在每個場景中,被調查者被要求從具有不同道德後果和不同權衡的兩個結果中選擇一個。場景可以包含20個字符的任意隨機組合(參見圖2),這些字符表示在一般人羣中發現的各種人口統計屬性。
除了人口統計因素外,道德機器場景還包括角色作爲乘客或行人的身份,以及角色作爲闖綠燈或紅燈的行人的身份。
除了受訪者的決定外,還收集了關於他們對每個場景的響應持續時間(以秒爲單位)和他們的大致地理位置的數據。這使我們可以推斷訪問的國家或地區。
每個場景都有兩個選擇,我們將其表示爲具有兩個可實現值{0,1}的隨機變量。受訪者轉向(既,干預)的選擇被表示爲,同樣,他們選擇留下來(既,不干預)的選擇被表示爲。應答者的選擇產生了這樣一種狀態,在該狀態下,特定字符集被保存在另一字符集之上。結果狀態由字符向量,其表示選擇的結果狀態。
作爲示例,我們在圖3中顯示了轉彎的合成狀態的向量表示。老人角色的向量元素由值2表示,表示將從選擇轉彎中拯救的兩個老人角色。
此外,紅燈特徵的向量元素用值3表示,表示三個正在過紅燈的行人。
3. 道德困境的效用函數
現代功利主義倫理學的創始人傑里米·邊沁(Jeremy Bentham)將道德困境中的倫理決定描述爲在兩難境地中對價值的權衡之和進行效用最大化的決定[2]。
最近,認知心理學家正式提出了使用效用函數來分析道德困境的想法,效用函數可以計算困境中的各種權衡[18,19]。
幼兒道德決策的證據表明,兒童通過計算價值與抽象概念之間的權衡來建立他們的道德判斷基礎[15]。
在這裏,我們的目的是模擬被調查者如何根據他/她對道德困境的抽象維度(我們稱之爲道德原則)所賦予的價值觀來做出他/她的決定。
例如,當受訪者選擇在場景中拯救女性醫生角色而不是成年男性角色時,這一決定在一定程度上是因爲受訪者對醫生這個抽象概念的重視,醫生是社會中一個罕見而有價值的成員,爲改善社會福利做出了貢獻。
抽象的女性性別概念也將是他或她做出決定的一個因素。
在“道德機器”中,二十個人物有許多共同的抽象特徵,如女性、老年人、非人類等。
因此,原始特徵向量通過特徵映射可以在抽象特徵空間中分解成一個新的向量其中。在這項工作中,我們使用一個線性映射其中是的二進制矩陣,如圖4所示。
如圖5所示,道德機器角色空間中的原始狀態向量被映射到抽象特徵空間中的新狀態向量。我們注意到,的向量元素由值3表示,表示具有該特徵的三個字符。
我們將道德原則定義爲權重,既對應於抽象維度的的權重。這些權重表示受訪者如何評估諸如年輕、年長或醫生等抽象特徵,以計算其選擇的效用值。爲簡單起見,我們將狀態的效用值建模爲抽象維中特徵的線性組合:
(1)
在選擇不干預和干預的效用值得情況下,受訪者的干預決定被視爲基於在兩個選擇的淨效用的Sigmoid函數的概率結果:
(2)
其中
(3)
我們將注意力從對受訪者在道德困境中的決策的稀疏和嘈雜的觀測中,轉向推斷他們的個人道德原則。
4. 等級道德原則
人類學家的研究表明,不同地區和不同時期的社會對什麼行爲是道德的看法大相徑庭[3,12,13]。例如,某些社會強烈強調對老年人的尊重,而另一些社會則側重於保護年輕人。社會中的這些觀點就是我們所說的社會的羣體規範。
儘管如此,即使在文化和種族構成相同的社會中,羣體中的個別成員也可以持有獨特和不同的道德標準[11]。我們如何模擬羣體規範和個人道德原則之間的複雜關係?
我們引入了分層道德原則模型,它是分層貝葉斯模型的一個實例。回到道德機器中的數據,考慮屬於的個受訪者。這個羣體可以是一個國家、一種文化或一個共享風俗和規範的地區。
被調查者的道德原則是從一個多元正態分佈中得出的,該多元正態分佈由維上組的平均值參數化:
(4)
其中協方差矩陣上的對角線表示沿着抽象維度的羣組成員之間的組內方差或差。較高方差描述了沿着相應抽象維度的更廣泛的意見多樣性。此外,協方差(非對角線)值捕獲了它們放在抽象維度上的值之間關係的強度。例如,高度重視嬰兒期的文化也應該重視懷孕,因爲它們在直覺上密切相關的概念。
協方差矩陣允許貝葉斯學習者理解相關概念,並在推斷出高度相關的維度後,利用該關係快速逼近一個維度的值。
設是個受訪者的一套獨特的道德原則。每個受訪者對場景a=做出判斷。受訪者的判斷是隨機變量的一個實例。在觀測到狀態集合和決策的情況下,關於道德原則集合的後驗分佈如下:
(5)
其中,可能性是:
(6)
其中,是受訪者在給定的情況下選擇在場景中轉向的概率,如公式2所示。模型的圖形表示如圖6所示。
作爲說明,我們從丹麥隨機抽取了99名受訪者,相當於1287份響應數據。我們用參數的LKJ協方差矩陣指定了協方差矩陣上的先驗:
(7)
先驗羣體權重:
(8)
其中。
我們推斷出個人道德原則以及羣體價值觀和協方差矩陣。這些結果如圖7所示。
我們注意到丹麥受訪者的三個代表性子樣本在推斷的道德原則上的差異。
4.1 預測個人判斷
作爲評估我們的模型的一種手段,我們進行了樣本外預測測試。我們從道德機器網站上隨機選擇了1萬名受訪者,他們至少完成了一個會話,其中包含13個場景。我們僅過濾了受訪者的前十三種情況,以彙編包含130,000個決策的數據集。
我們將模型的預測準確性與三個基準進行了比較。基準測試1對“道德機器”中人物的集體價值進行建模,從而使一個狀態的效用計算爲
(9)
其中。基準測試1將權重建模爲
(10)
並且不包括組層次或字符(characters)和因素(例如紅綠燈、乘客等)上的權重之間的協方差。
基準2建立在基準1的基礎上,沿着抽象道德維度將值建模維。組層次結構和權重之間的協方差被忽略。
最後,基準3對每個受訪者的個人道德原則建模爲,但不包括層次結構。因此,每個應答者都被視爲一個獨立的代理人,在這種情況下,推斷一個應答者的價值觀並不能洞察另一個應答者的價值觀。
爲了證明準確率的提高,我們通過改變的樣本受訪者數量,在不同大小的訓練數據上測試了模型。我們使用來自每個受訪者的前八個判斷作爲訓練數據,並測試了每個代理對其餘5個響應的預測準確性。對於我們的模型,我們假設大小爲的抽樣調查對象屬於一組。
結果(圖8)顯示,隨着受訪者數量(既訓練數據)的增加,我們的模型(基準1和基準2)的預測精度提高。基準3的準確性並未提高,因爲被調查者的數量與個人被調查者價值觀的推論無關。
然而,分層道德原則模型顯示,隨着訓練數據大小的增加,準確率不斷提高。
我們注意到,基準1和基準2之間的改進幅度顯示了抽象和縮減尺寸所獲得的收益。基準2和我們的模型之間的差額揭示了納入個人道德原則的好處。最後,基準測試3和我們的模型之間的差值表明了羣體層次結構所實現的增益。
4.2 反應時間
關於人類決策的研究發現,決策的置信度與決策的反應時間(即反應時間)之間存在很強的關係[1、5、25]。這些研究表明,當證據水平較低時,二元決策任務中的人類受試者需要較長時間才能做出決策。 在本節中,我們採用這種方法來證明我們的模型準確地反映了反應時間和道德困境的難度之間的關係。
我們從美國抽取了1727名訪問道德機器的受訪者,總共對應了22451個判斷。除了判斷決定之外,我們還測量了受訪者做出決定所需的響應時間(RT)(以秒爲單位)。由於實驗的無人監督的性質,受訪者可以自由地在稍後停止並重新參與;因此,我們從分析中剔除了耗時超過120秒的響應。根據判斷數據,在推斷了個體受訪者的道德原則後,我們計算了公式2中定義的每種情景的估計轉向概率(例如,)。我們使用計算了新的度量,既決策確定性。
繪製場景的決策和響應時間確定性圖(參見圖9)可以直觀地顯示兩個變量之間的關係模式。
確定性較高的情景代表那些在困境中有明確取捨的情景,因此受訪者平均對困境的反應更快。同樣,確定性較低的場景是那些權衡不明確的場景,這樣受訪者對自己的決定就不那麼有信心了。直觀地說,解決權衡的模糊性需要更大的認知成本,這表明受訪者的響應時間更長。
我們認爲反應時間和模型中估計的決策確定性之間的關係是一個支持性的證據,表明該模型是人們如何解決道德困境的一個強有力的代表。此外,基於價值的決策過程的認知成本在他們的反應時間中被揭示,這是一個可以在推理中使用的額外信息。例如,我們看到一個人快速做出決定,然後我們可能還會得到關於這兩個選擇之間的相對價值差異的信息。在未來的工作中,我們打算將響應時間信息整合到學習過程中,讓學習者能夠更快地推斷。
5. 討論
借鑑最近的道德學習建模框架,我們提出了一個推斷人類決策者在道德困境中的偏見和偏好的計算模型。我們使用道德機器的數據演示了該模型在自動駕駛車輛領域的應用。我們發現,分層貝葉斯推理提供了一種強大的機制,可以沿着抽象維度準確地推斷個人偏好和羣體規範。
最後,我們展示了該模型成功地捕捉到了解決道德困境中權衡的認知成本。
我們發現,根據該模型很難預測人類判斷的道德困境與較長的響應時間相關,在這種情況下,響應時間可以代表困境的難度。
在這項工作中,我們遺漏了任何關於如何聚合個人道德原則和羣體規範來設計人工智能Agent的規範性討論,該Agent做出優化系統中所有其他Agent的社會效用的決策。最近,[20]提出了一種集合個體偏好的新方法,使得集合後的決策能確保全局效用最大化。我們認爲這種方法是對我們工作的自然補充。
我們工作的另一個有趣的擴展是探索將可觀測數據映射到抽象特徵空間的機制。我們將這個過程形式化爲特徵映射:。來自發展心理學的證據表明,兒童在成長過程中會獲得抽象知識並形成歸納約束[6,10]。非參數貝葉斯過程,如印度巴菲特過程[28]及其變體[22],也是在道德領域學習特徵映射的有前途的模型。
我們以反應時間作爲衡量決策難度的指標,提出反應時間可以作爲額外的信息,更準確地推斷被調查者的個體道德原則。將我們目前的模型與漂移擴散模型[23]相結合,可以得到一個更豐富的模型,來描述道德決策中的信心和錯誤。AI代理需要了解人們行爲的道德基礎,包括人們何時出於社會不當的道德價值觀以及何時因過快而犯錯。
例如,如果AI代理髮現某個人花了很長時間做出最終錯誤的決定,則AI代理應合併該人的置信度和錯誤率,以準確推斷該人可能犯了一個錯誤。 。
最後,我們使用相同的數據來源來推斷抽象的道德原則,並檢驗模型的預測能力。
然而,“道德機器”中人物和因素的抽象維度並不侷限於“道德機器”數據集,甚至也不侷限於AV領域。
一個有趣的實驗將是在不同情況下跨各種道德困境測試模型。
像這裏研究的那樣的分層貝葉斯模型已經成功地用於遷移學習中。 展示從一個領域學習道德原則並將這些原則應用於其他領域的道德決策的能力,是發展類似人類的道德AI的關鍵挑戰。