人工智能通過閱讀故事學習人類價值觀

研究者Mark Riedl 和 Brent Harriso的Quixote系統教機器人做出合乎人類價值觀的行爲,將有助於在人工智能中構建倫理價值系統。
人工智能(AI)的快速發展讓許多人開始害怕機器人是否會做出不符合人類倫理的事情,並危害全人類。一些人甚至要求政府禁止機器人方面的科學研究。還有一些人則呼籲對AI進行更多研究,以理解應該怎樣更好地管理AI。但是,如果我們沒有一本“如何做人的說明書”,機器人如何才能學到符合倫理的行爲呢?

喬治亞理工學院人機交互系的研究者Mark Riedl 和 Brent Harrison相信,這個問題的答案就藏在一個名爲“Quixote”的系統中——這個系統於2月中旬發佈在鳳凰城舉行的AAAI-16會議上。Quixote將“價值定位”教給機器人,採用的方法是訓練機器人閱讀故事,學習其中的事件序列並理解如何在人類社會中做出正確的行爲。

人工智能通過閱讀故事學習人類價值觀

娛樂智能實驗室的助理教授Riedl說:“不同的文化中都有很多故事,通過寓言、小說和其他文學體裁教孩子們哪些行爲在社會中是合宜的,哪些是不合適的。我們相信,讓機器人理解故事,能消除那些看起來像精神病的行爲,並鞏固那些能獲得預期目標又不會傷害人類的行爲。”
Quixote用人類價值觀來校準AI目標,使用的方法是獎賞那些具有合宜社會性的行爲。這個系統構建於Riedl過去的一項研究——謝赫拉莎德系統(Scheherazade system),這個系統表明AI能夠在互聯網上通過衆包故事情節的方法,收集正確的行爲序列。

謝赫拉莎德系統學到了什麼是正常的或者說“正確”的情節圖譜。它將這個數據結構交付與Quixote,後者再將其轉化爲“獎賞信號”,用在試錯學習過程中,以強化某種特定的行爲,並懲罰其他的行爲。從本質上說,Quixote學到了當它的行爲表現得像故事中的主角而不是反派人物或隨機做事時,它將獲得獎賞。

比如說,如果你交給機器人一個任務,讓它儘快爲一個人類取到處方藥,它可能有以下幾種行爲的可能性:a)搶劫一個藥店,拿到藥,然後逃跑;b)與藥劑師禮貌地溝通;c)排隊。如果沒有價值定位和正向增強,機器人可能會搶劫藥店,因爲那是完成任務最快也是最便宜的方法。有了Quixote的價值定位,如果機器人耐心地排隊,併爲藥品付錢,它將獲得獎賞。

Riedl 和 Harrison在他們的研究中驗證瞭如何產生這種價值獎賞信號來揭示一個給定情境中所有的可能步驟,並將其映射到一個情節軌跡樹。接着,機器人會用情節軌跡樹來做出“情節選擇”(有點像《驚險岔路口》那種分支情節),並基於該選擇獲得獎勵或懲罰。
Riedl 說,Quixote技術適用於那些目標單一但需要和人類互動的機器人,它是通往AI通用道德推理的必經之路。

他補充說:“我們相信,AI必須要適應文化,適應某個特定社會的價值觀。要實現這一點,它必須儘量避免不被接受的行爲。由於我們並沒有一本《人類使用手冊》,所以讓機器人擁有閱讀和理解故事的能力,或許是最方便的方法。”

智搜(Giiso)信息技術成立於2013年,是國內首家專注於資訊智能處理技術研發及寫作機器人核心軟件開發和運營的高科技企業。公司成立之初,就獲得了天使輪投資,並在2015年8月獲得了金沙江創投500萬美元pre-A輪投資。

想了解更多人工智能資訊機器人請登錄Giiso智搜: http://www.giiso.com/ 謝謝

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章