MIT發佈新模型,用於鑑別智能系統的“盲點”

麻省理工學院和微軟研究院的研究人員開發了一個新模型,能夠鑑別出智能系統從訓練樣本中“學習”到的,與實際情況不匹配的實例,稱爲“盲點”。這種“盲點”可能會在真實場景中導致重大錯誤。工程師可以使用這個模型來提升人工智能系統的安全性,如無人駕駛系統和自主機器人系統。

AI系統驅動的無人駕駛汽車在虛擬仿真中進行了大量的訓練,讓車輛準備好應對幾乎所有可能發生在道路上的事件。但有時汽車仍然會在現實世界中產生意外的錯誤,比如某個事件的出現應該改變汽車的行爲,但是並沒有。

假設有一個未經訓練的無人駕駛汽車,更重要的是沒有必要的傳感器來區分完全不同的場景,比如大型白色汽車和閃着紅燈的救護車。如果汽車在公路上行駛,救護車的在鳴笛閃燈,無人駕駛汽車可能不會減速和停車,因爲它不瞭解救護車與大白車的不同。

在去年的自動代理和多智能體系統會議(AAMS)以及即將到來的人工智能協會會議(AAAI)的兩篇論文中,研究人員介紹了一個使用人爲輸入來發現這些訓練“盲點”的模型。

與傳統方法相同,研究人員首先讓人工智能系統進行模擬訓練。但是,當系統在現實世界中運行時,會有人密切監視系統的行爲,在系統做出或即將犯下任何錯誤時提供反饋。然後研究人員將訓練數據與人爲反饋數據相結合,並使用機器學習技術生成一個模型,該模型能夠精確地指出什麼場景下系統最需要更多的信息,來指導它做出正確的行爲。

研究人員用電子遊戲驗證了他們的方法,用一個模擬的人糾正了屏幕上人物的學習路徑。但下一步是將智能系統的傳統訓練和測試方法與模型相結合,這裏指的是帶有反饋的訓練和測試方法。

“這個模型幫助智能系統更好地瞭解他們不知道的東西”,論文第一作者Ramya Ramakrishnan,計算機科學和人工智能實驗室的研究生介紹說:“很多時候,當系統被部署時,它們的訓練模擬環境不符合真實世界的設置,會導致它們出現錯誤,例如發生交通事故。這個想法是通過人類的反饋,以一種安全的方式在模擬環境和現實世界之間搭起一座橋樑,這樣我們就可以減少一些錯誤。”

加入反饋

一些傳統的訓練方法確實在真實環境的測試運行期間提供了人類反饋,但那只是爲了更新系統的行爲。此類方法不能鑑別盲點,而盲點對現實世界中AI系統的安全有重大意義。

研究人員的方法是首先對人工智能系統進行模擬訓練,使其產生一個“策略”,該策略基本上把每一種場景都映射到模擬中所能採取的最佳行動。然後,將該系統部署在現實場景中,當系統的行爲不可接受時,需要人類提供錯誤信號。

人類可以通過多種方式提供數據,例如“演示”和“修正”。在演示中,人類在現實世界中活動,而系統進行觀察,並且將自己在某個場景下會採取的行爲和人類的行爲進行對比。例如,對於無人駕駛汽車,如果其計劃的行爲偏離了人類的行爲,系統會發出信號,人類可以手動控制汽車。是否與人類行爲匹配,從一定程度上表明瞭系統採取的行動是可接受的還是不可接受的。

或者,人類可以提供修正,人類對運行在現實世界的系統進行監視。自動駕駛汽車沿着計劃的路線行駛時,可以讓一個人坐在駕駛位。如果汽車的行爲是正確的,那駕駛員什麼也不用做。然而,如果汽車做出了不正確的行爲,駕駛員可以掌控方向盤,這就發出了一個信號,表明系統在這種情況下的行爲是不可接受的。

來自人類的反饋數據被編譯之後,系統會有一個場景列表。對於每種場景,會有多個標籤來表示其行爲是可接受的還是不可接受的。單一的場景可以接收許多不同的信號,因爲對系統而言,它感知到的許多場景是相同的。例如,無人駕駛汽車可能很多次從一輛大汽車旁經過,而不會減速或停車。但是,在一個例子中,它從救護車旁邊經過,而救護車對系統來說和大汽車完全相同。因此自動駕駛車輛不會靠邊停車,於是系統收到反饋信號,告知系統採取了不可接受的行爲。

“在那個場景中,這個系統接收了來自人類的多個相互矛盾的信號:有的時候旁邊有一輛大汽車,而系統運轉良好,但有時在同樣的位置出現了救護車,系統就出現了錯誤。系統會注意到它做錯了什麼,但它不知道爲什麼。” Ramakrishnan說:“因爲代理獲得了所有的矛盾信號,下一步就是編譯這些信息,向系統提問:‘我在收到這些混合信號的情況下,是我犯了錯誤的可能性有多大?’

智能聚合

模型最終目標是將這些模糊的情況標記爲“盲點”。但這不只是簡單地標記出每種情況可接受的和不可接受的行動。例如在救護車的例子中,系統在10次中執行了9次正確的行爲,如果用簡單的多數表決會將該情況標記爲安全的。

“但是,由於不可接受的行動數量遠遠少於可接受的行動數量,系統最終的學習結果是預測所有的情況都是安全的,這對於無人駕駛來說是極其危險的,”Ramakrishnan說。

爲此,研究人員使用了Dawid Skene算法,一種常用於衆包的機器學習方法來處理標籤噪聲。該算法將情況列表作爲輸入,每一個情況都有一組帶噪聲的“可接受”和“不可接受”的標籤。然後,它聚集所有的數據,並使用一些概率計算來識別預測的盲點情況下標籤呈現的模式,以及預測的安全情況下標籤呈現的模式。使用該信息,它爲每個情況輸出一個單聚合的“安全”或“盲點”標籤,以及其標籤的置信程度。值得注意的是,有時對於某個場景,該算法在90%的時間裏都執行了可接受的行爲,但是該場景仍然屬於模糊的,值得被標註爲一個“盲點”。

最後,該算法產生一種 “熱度圖”,標註出系統原始訓練中的每個場景被視爲盲點的概率。

Ramakrishnan說:“當系統被部署到真實環境時,它可以利用這個學習的模型做出更加謹慎和智能的判斷。如果模型預測某個場景是高概率的盲點,系統可以向人類諮詢可接受的行爲,從而更安全的行駛。”

賓夕法尼亞大學的計算機與信息科學教授Eric Eaton說:“這項研究是一個很好的轉折點,當模擬器和現實世界之間存在不匹配的情況時,可以直接從專家對系統行爲的反饋中發現這一不匹配。”他補充說,這項研究“有很好的潛力,讓機器人預測在新的情況下是否會採取錯誤的行動,從而採納操作員(人類)的意見。下一個挑戰將是利用這些發現的盲點,用它們來改善機器人的內在表現,以更好地匹配真實世界。

查看英文原文:

http://news.mit.edu/2019/artificial-intelligence-blind-spots-0124

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章