Relational Reinforcement Learning: An Overview

Abstract

關係強化學習(RRL)既是一個年輕的領域,又是一個古老的領域。 在本文中,我們追溯了該領域的歷史和相關學科,概述了一些當前的工作和有希望的新方向,並調查了未來的研究問題和機會。

Introduction

長期以來,將學習與解決問題相結合一直是人工智能的夢想。 儘管這似乎與分而治之的原則背道而馳,但仍有許多充分的理由採用這種綜合方法。 解決問題通常在計算上很困難,並且如果不學習,agent將無法利用自身的經驗來提高將來解決問題的效率。 另一方面,孤立學習取決於外部專業知識來決定哪些值得學習並提供訓練數據。 這樣的專業知識並非總是可用,並且在可用時通常很昂貴。 因此,諸如LEX(Mitchell等,1983),SOAR(Laird等,1986)和Prodigy(Minton等,1989)之類的系統開創了將問題解決與學習相結合的方法,儘管他們具有完整的知識和正確的領域模型,並在一個完全可觀察和確定性的世界中。

基於馬爾可夫決策過程理論的強化學習(RL)放寬了其中的一些假設,包括確定性和對領域模型的全面瞭解(Kaelbling等,1996; Bertsekas&Tsitsiklis,1997; Sutton&Barto,1998)。 agent沒有被提供完整和正確的領域理論,而是處於一種環境中,可以通過採取行動並接受積極或消極的強化,與agent進行交互以收集領域知識。 agent的主要目標是學習一種基於其當前狀態選擇其行爲的方法,即學習一種將狀態映射到行爲的策略,從而優化性能指標,例如每個時間步長收到的預期平均獎勵。

強化學習爲構建智能agent提供了一個通用框架和一系列方法,這些智能agent可以在最少的監督下優化其在隨機環境中的行爲。 但是,不幸的是,目前RL中的大多數工作都是基於命題表示法,這使其很難將其應用於複雜的現實世界任務,例如從Web檢索信息,自然語言處理或在諸如現實世界這樣豐富的領域中進行規劃,如烹飪。 命題RL在此類領域中的成功應用通常只有通過對命題特徵進行專業的人工構造才能實現。 這些領域中的狀態和動作更自然地以關係形式表示,並且人們似乎經常在學習和泛化中利用豐富的關係結構。 問題自然而然地出現了:這是怎麼做的?

在本概述文章中,我們激勵RRL嘗試回答這個問題,將其置於歷史背景下,概述一些有前途的方法和新方向,並討論該領域中的一些開放研究問題。

Motivation

考慮一個典型的網絡問題解答任務(Berners-Lee等,2001; Fensel等,2002),該任務可能涉及訪問和集成來自網絡的半結構化信息以回答一個複雜的查詢,例如“查找西海岸的一所研究生院,這裏有經濟適用房,多個教職員工,並且資助了人工智能方面的研究。”即使以正式的查詢語言提出查詢,要回答該問題,也需要一些技能,例如查詢計劃,優化,信息提取以及以關係語言進行信息集成。或考慮學習烹飪一頓飯涉及什麼。雖然當然不是詳盡無遺的清單,但需要推理一下人們的口味和喜好,自己對食譜和技能的瞭解,配料的可用性,使用地點,使用它們的程序,器皿和炊具的容量以及所產生的影響不同成分的比例,烹飪溫度以及不同類型的烹飪過程對最終產品的口味和質量的影響。

容易將這兩個問題都視爲強化學習問題。 在這兩個任務中,我們可能會因花費的時間和其他費用而對系統進行懲罰,併爲最終產品的質量而給予獎勵。 然而,問題在於,網的結構和烹飪任務中涉及的推理最自然地使用關係表示來表示。 這給RL在這些領域的成功提出了若干挑戰。

Function Approximation: 當應用於關係域時,通常在RL(例如神經網絡或迴歸樹)中使用的值函數近似不能很好地泛化。 部分原因是因爲這些表示不適合表示關係知識的任務。 當它們成功時,他們需要仔細選擇專門針對手頭特定任務手工設計的命題特徵或基本功能。 設計在存在時利用關係結構的函數逼近方案是一個嚴峻的挑戰。

Generalization Across Objects: RL方法不能明確表示對象及其之間的關係,因此從一個對象學習到相似的相關對象的能力從根本上受到限制。 這裏的關鍵挑戰是識別被認爲是“相似”的對象的類,在這些類上證明這種泛化是合理的,以及識別和表示適合傳遞的知識。

Transfer across Tasks: RL程序通常在單個任務上進行測試,並且不會表現出跨任務的知識轉移。 給定域中的每個任務,例如信息檢索中的每個查詢,在按命題制定時可能看起來完全不同,因此可能需要單獨的訓練才能收斂。 關係表示便於將相關任務的廣泛集合表述爲單個域,從而在這些相關任務之間產生自然的泛化。

Run-time Planning and Reasoning: 在大多數強化學習工作中,運行時沒有刻意的規劃和推理。 默許地假定所有規劃都是離線進行的,或者系統完全依靠探索和學習來構造好的規劃,從而將運行時執行減少爲被動行爲。 但是,複雜的動態域既需要考慮又需要反應,正如成功的遊戲程序所證明的那樣。 似乎值函數的近似性質要求在運行時進行更精細的搜索以補償其誤差。 推理在構建新功能以改進值函數近似中也可能很重要。

Prior Knowledge: RL不再強調先驗知識在學習和推理中的作用,因此依賴於嘗試和錯誤學習,這是非常低效的,並且通常無法擴展到諸如上述的更復雜的任務。

關係強化學習(RRL)試圖通過將RL概括爲關係表示的狀態和動作來解決所有上述問題。 實際上,強化學習和關係學習都有悠久的歷史。 強化學習的研究始於1959年塞繆爾(Samuel)在跳棋方面的開創性工作(Samuel,1990)。 關係學習的工作始於溫斯頓關於塊世界學習的工作(溫斯頓,1975年)。 近年來,以不同的名稱研究關係學習,包括歸納邏輯規劃,關係數據挖掘和概率關係建模。 強化學習也以多種方式進行了研究,其中神經動態規劃和決策理論規劃最爲人所知。

也許不太明顯,並且正如引言中所提到的,強化學習也與加速學習以及SOAR和Prodigy等系統密切相關。確實,經典的《機器學習閱讀》(Shavlik&Dietterich,1990)將塞繆爾的工作歸類於加速學習。這是有道理的,因爲在加速學習中,學習任務被視爲通過學習適當的控制知識(即,學習在什麼時候或某個策略時該做什麼)來加速暴力問題解決者。儘管遵循經典計劃範式的提速學習工作並未考慮動態域和隨機性,但從一開始就採用了關係表示。加速學習與強化學習之間的另一個區別是,在加速學習中,假定給出了領域理論,即動作模型和即時獎勵函數,而在RL中,僅提供了仿真模型。

關係強化學習(RRL)將狀態和動作的關係表示形式的表現力以及強化學習的動態性和隨機性結合在一起,從而爲學習創造了一個非常籠統且具有挑戰性的環境。

Reinforcement Learning

強化學習(RL)的基礎是一種agent,該agent可以使用傳感器感知周圍世界,並通過效應器對周圍世界進行操作,從而與周圍環境進行交互。除了傳感器和效應器外,agent還獲得了增強或獎勵。通常,環境可能是隨機的,動態的,並且只能部分觀察。對於不同的操作定義,agent的目標是以一種行爲來優化其預期的長期效用,例如,優化每步的預期平均報酬或優化每一步的幾何折扣的預期總報酬(Puterman, 1994)。

鑑於RL的這個宏偉目標,毫不奇怪的是,即使不是全部,大多數AI問題都可以在RL框​​架中解決。的確,RL可以看作是AI完整問題的集合,或者其解決方案暗示着在該領域的廣泛目標上取得成功的問題之一。但是,當前的方法(接下來將簡要回顧)並沒有處理暗示的環境豐富性問題。 RRL是彌合這一差距的關鍵步驟,允許RL方法擴展到結構豐富的域中。

強化學習文獻提供瞭解決RL問題的幾種方法。 “策略梯度”方法在某種語言的指導下,根據其性能度量相對於其參數的梯度估計來直接搜索參數化的策略空間。這些方法的優點之一是它們在某些條件下也適用於部分可觀察的環境。

另一類方法更強烈地依賴於狀態的可觀察性,並通過學習狀態或狀態-動作對上的適當參數化的實值函數來間接地學習最佳策略。值函數的參數是局部更新的,將當前狀態的值移至下一個狀態的值加上任何即時獎勵。在實踐中難以滿足的強大假設下,這些局部更新可以顯示爲使值函數收斂到從給定狀態(在給定操作下,如果有的話)可以實現的真實期望效用,我們稱之爲最佳值。如果已知最佳值函數,則agent可以通過對它貪婪地行動,在每個狀態下選擇使結果狀態的期望值最大化的動作來最佳地執行。通過剛剛描述的局部更新的某種變體來學習(近似或啓發式)正確值函數的方法的集合,統稱爲值迭代方法。當要更新的值函數將值分配給狀態-動作對時,它稱爲Q函數,該方法也稱爲Q學習方法。在這兩種情況下,在每個狀態下局部更新值函數估計的過程都稱爲值函數迴歸,因爲可以將其視爲通過環境的動作動力學一步一步使值函數估計迴歸。

尋找最佳策略的一種相關方法是策略迭代,它基於一個簡單的定理:相對於次優值函數V貪婪地行動,將獲得至少與該值函數指示的值一樣多的值,並且至少有一個值獲得更多的值。換句話說,只要V低估了最優值,相對於V的貪婪策略所獲得的價值就大於V。策略迭代以任意的V開始,並針對V的貪婪策略計算改進值函數V’。然後可以將V’作爲V重複此過程,直到找到最佳V。實際上,收斂只需要進行幾次迭代,但是在大狀態空間中,從多項式中找出V的改進V’的過程雖然是多項式的,但卻很昂貴。爲了解決這個問題,在大的狀態空間中,可以通過對在多個給定的樣本軌跡上從s獲得的效用取平均值,根據V貪婪地進行操作,在任意給定的狀態s下對V’進行採樣。這個過程被稱爲政策推出(Bertsekas&Tsitsiklis,1997)。給定足夠的V’這樣的樣本,機器學習技術可以學習V’的近似值,即狀態空間特徵的線性組合,從而提供了一種便宜的方式來在大狀態空間中近似地進行策略迭代。

Relational Reinforcement Learning: State of the Art

在本節中,我們概述了一些有關關係強化學習的有前途的當前方法。

Relational Regression and Q-learning

通過使用關係迴歸,RRL系統(D-zeroski等人,2001)允許將幾乎標準的Q學習應用於在以關係性質爲特徵的環境中強化學習問題。

通過將狀態和動作的關係表示與關係迴歸結合使用以進行Q函數泛化,可以使用結構信息,例如在Q值的描述中存在具有正確屬性的對象或對象之間的關係。結果導致對派生策略的描述。當遇到更復雜或更簡單的任務時,這可以在較小但相關的問題上重用經驗。

已經開發了三種用於該RRL系統的迴歸算法:TG算法(用於逐步構建一階迴歸樹),基於實例的算法(稱爲RIB)和基於內核的算法KBR(使用高斯過程作爲迴歸技術)。

TG算法(Driessens等,2001)是構建一階分類和迴歸樹的Tilde算法(Blockeel和De Raedt,1998)與G算法(Chapman和Kaelbling,1991)的結合。有關樹的每個葉子中每個可能擴展的性能的大量統計值,以逐步構建樹。 TG算法使用的關係迴歸樹使用一階文字的結合作爲內部葉子中的測試。對應於特定葉子的測試是出現在從樹的根到葉子的路徑上的測試的結合,在其中對所有出現的變量進行存在量化。 TG算法採用了源自Tilde系統的用戶定義的精細運算符,以生成可用於替換葉子的可能的一階測試。 TG算法算法存儲在樹的每片葉子中的統計信息包括通過每種可能的測試進行正或負分類的示例數,以及每種情況下Q值和Q值平方的總和。這允許使用F檢驗來決定選擇哪個檢驗。目前,TG尚未進行任何樹重組。該算法做出的所有決定都是最終決定。

基於實例的算法RIB(Driessens和Ramon,2003年)使用k最近鄰預測作爲迴歸技術,即,它計算存儲在內存中的示例的Q值的加權平均值,其中權重成反比到示例之間的距離。所使用的距離必須能夠處理狀態和動作的關係表示,並且可以是通用的一階距離(Sebag,1997; Ramon和Bruynooghe,2001),也可以是特定於應用的距離,通常可以是計算效率更高。由於Q學習生成連續的學習示例流,因此開發了許多示例選擇方法以減少內存和計算需求。這些選擇標準基於IB2和IB3中使用的選擇標準(Aha等,1991),並研究各個示例對整體預測誤差的影響。

第三種算法稱爲KBR(G·artner等,2003a),並使用高斯過程作爲迴歸技術。高斯過程(MacKay,1997)要求在示例描述之間定義正定協方差函數。由於在RRL系統中使用了關係表示,因此必須使用結構化數據的內核來完成此任務。這裏可能的候選對象是卷積核(Haussler,1999)或在圖上定義的核(Gartner等,2003b)。由於高斯過程是貝葉斯技術,因此KBR算法不僅提供了一個新的未知示例的Q值的基本預測,而且還提供了更多的信息。它還可以指示此估計的預期精度,例如,可以通過Q學習算法將其用於指導探索。

降低Q學習與關係函數抽象的適用性的主要問題之一是Q值本身的性質,即它們隱式編碼到下一個獎勵的距離和大小。 在隨機和高度混亂的任務中很難預測這些。 在這種情況下,優勢學習或策略迭代等其他方法似乎更合適。

Approximate Policy Iteration for RRL

如上所述,可以將近似策略迭代視爲從值函數V移至更好的值函數V’,或者從相應的貪婪策略π\pi移至更好的貪婪策略π\pi ',然後進行迭代。此處,π\pi關於V貪婪地行動,π\pi '關於V’貪婪地行動。

直到最近,幾乎所有近似策略迭代的用法都直接表示值函數,但僅隱式表示相應的策略(作爲對直接表示的值函數的貪婪行爲)。考慮到廣泛的專家-人的特徵工程,這種方法對於命題域可以很好地工作(例如,在TD-gammon中(Tesauro,1995)),但是對於高度結構化的關係域卻沒有成功。由於上述原因,很難爲這些高度結構化的域找到良好的近似值函數表示。

一種替代方法是直接表示所涉及的策略,而僅隱式表示值函數。給定策略π\pi的顯式表示形式,隱式表示的值函數是通過從每個狀態重複執行π\pi所獲得的值。如上所述,通過在π\pi下繪製合適的軌跡(從每個可能的替代動作開始),仍然可以使用策略推出來生成π\pi '的樣本(給定π\pi)。注意,在這種方法中,使用監督分類學習器來學習π\pi ',而不是之前使用迴歸學習器來近似V’。

這種替代方法的優點是,與表示和學習準確的價值函數相比,通常更容易表示和學習適用於結構化域的策略。可以使用通用策略語言,這些語言利用數十年來的知識表示工作來對許多有用的策略進行緊湊,易學的描述(Martin&Geffner,2000; Khardon,1999; Yoon等,2002)。大量的實證研究表明(Fern等人,2003; Fern等人,2004),對於前三屆國際會議中使用的基準規劃問題衍生出的各種困難的,結構化的領域,幾乎不需要人工就可以學習策略。規劃比賽。使用這種近似策略迭代形式的學習系統可以學習與這些領域中最新的確定性計劃者競爭的策略。但是,與確定性計劃器不同,這些系統對於引入不確定性具有魯棒性,並且可以證明在相同問題的隨機變體中表現良好。另外,學習系統一次學習整個計劃領域的策略,然後可以通過簡單地執行所學習的策略來解決該領域中的任何實例。相反,確定性計劃人員對每個問題實例使用新搜索,而在實例之間不傳遞任何知識。

關於RRL的近似策略迭代方法,還有許多未解決的研究問題。 首先,迄今爲止探索的策略語言是相當有限的。 是否可以找到一種良好的,可學習的,通用的策略語言來避免遇到新領域時需要人工重新設計該語言,還有待確定。 特別是,僅開始探索結合內存而不是簡單地對當前狀態做出反應的策略語言。 而且,當前的策略語言缺乏將關於問題域的背景知識併入策略語言或策略學習者的一般能力。 最後,儘管有自然的方法,但這些技術尚未擴展到部分可觀察的環境或多agent環境中。

Symbolic Dynamic Programming

RRL的誘人方法是利用狀態轉換模型的符號表示形式來做“貝爾曼備份”的符號版本。這種方法的根源可以追溯到基於解釋的學習(EBL),其中,在成功解決問題的環節之後,將建立一個證明其成功背後原因的證據。然後,對證明進行一般化,以構造可以用相同方法求解的狀態的描述(Mitchell等,1986; DeJong&Mooney,1986)。在狀態空間問題和MDP中,證明對應於顯示動作序列可以實現目標,而EBL對應於在操作符序列上進行目標迴歸。實際上,EBL是諸如Prodigy和SOAR(Minton等,1989; Laird等,1986)之類的系統中使用的泛化算法的核心,以從解決問題的特定示例中學習一般控制規則。 Dietterich和Flann通過將這些廣義狀態描述與從Bellman備份獲得的值相關聯,將該思想與強化學習相結合(Dietterich&Flann,1997)。因此,人們可以學習對導致最多1步,2步,3步等獲勝的狀態的描述,並使用它們來選擇任何狀態下的最佳步法。

Boutilier將所得的基於解釋的強化學習(EBRL)推廣到了隨機域,其獎勵模型由結構化的貝葉斯網絡描述,因此使它們易於進行符號推理(Boutilier等人,2001)。這兩種方法的優點是,不是從動機不明確的句法偏見中歸納概括一組示例,而是從符號域理論開始,證明該歸納是正確的。領域理論易於以緊湊的符號表示形式提供,這是決策理論規劃中的標準假設。如果這不是真的,那麼首先學習對領域理論的簡要描述(Pasula等人,2004),並將其用於目標迴歸中可能比直接學習價值函數要難得多。這是因爲,即使值函數不起作用,領域模型也往往會採用緊湊的表示形式。例如,考慮象棋規則或PDDL中各種計劃域的描述。領域模型是緊湊的假設類似於歸納方法中要學習的策略是緊湊的假設。例如,此假設奠定了RRL近似策略迭代中使用的語法偏差的基礎。

不幸的是,有時稱爲這種方法的符號動態編程(SDP)並不是萬能藥。共享給定值的狀態的描述變得越來越複雜和分離,因爲這些狀態離目標越來越遠。每個連接描述所覆蓋的狀態數量急劇減少,從而導致大量的低覆蓋規則。實際上,在早期的EBL系統中已經觀察到這種情況,導致了所謂的“效用問題”(Minton,1988; Dietterich&Flann,1997)。在某個時候,有必要放棄對值函數的精確表示,並對其進行緊湊地逼近,否則人們將花費更多的時間來匹配所有規則,而不是在原始狀態空間中尋找解決方案。進行這種近似通常涉及歸納學習,並導致這種方法本質上類似於關係迴歸。

可以通過狀態空間聚合將某些問題抽象爲等效的較小問題。以這種方式形成的具有較小等效問題的問題通常會很好地產生SDP。這些問題也可以通過使用模型最小化找到相關的狀態空間集合來直接解決(Givan et al。,2003),然後使用任何適用的技術(例如值迭代)解決由此產生的較小問題。

Directly Approximating the Value Function

直到最近,纔有任何工作涉及改善我們的價值函數表示的方法,從而使所得的近似值可以利用域的關係結構,而無需對狀態空間特徵進行大量的人工設計(Guestrin等,2003)。這項工作的新穎之處在於它能夠使用一種有效的方法(即線性編程)來直接逼近值函數。

不幸的是,這需要做出幾個假設,其中一些假設是非常嚴格的。最強的假設之一是對象之間的關係屬性不會隨時間變化。對如此強大的假設的需求突顯了直接逼近價值函數的難度。儘管在評估該作品的Freecraft有限子域中看起來並不那麼嚴重,但請注意,在國際競賽的每個規劃基準中,對象之間的關係都會隨着時間而變化。

給定此有限的設置,假定全局值函數可將每個對象的加性分解爲局部值函數。在對象屬於類(可以自動學習)的進一步假設下,還允許局部值函數近似值在類之間變化。結果方法必須爲每個對象類找到一個局部值函數。在這裏,術語“本地”表示給定對象貢獻的值只能取決於該對象的屬性(以及可能與該對象直接相關的那些對象)的屬性;在所報告的工作中,局部值是局部對象屬性的線性組合。然後,找到一個好的價值函數就可以減少尋找要用於每一類對象的線性組合的權重。

給定該值函數近似值,可以將找到合適權重的問題轉換爲指數級大的線性程序,並使用約束採樣技術對其進行近似解決。 可以保證選擇權重接近最佳值的結果。 如果近似值中隱含的關於值函數的假設成立(如果可能確實很大),則可以保證該方法非常接近真值函數。

到目前爲止,我們描述的所有RRL方法都利用關係表示將其價值功能或策略推廣到共享屬性和對象的相似域。 在每種情況下,其知識表示中固有的歸納偏差決定了歸納的有效性。 這一點最重要的是,戲劇化地表明,知識表示實際上是RRL中的關鍵問題,因爲它決定了要進行的泛化。

Research Issues in RRL

對RRL的研究提供了許多希望,但也帶來了許多新的問題和挑戰。 以下是一些顯而易見的緊迫問題。

Theory of RRL: 與命題RL文獻不同,RRL理論還不那麼成熟,只是在發展中(Boutilier等,2001; Kersting等,2004)。 雖然有限MDP的基本結果會延續到具有有限對象的關係域,但這些結果並沒有那麼有用,因爲它們依賴於命題化並且遭受與命題RL相同的不可泛化性的問題。 因此,有效函數逼近所基於的理論和實踐問題對於RRL而言更爲關鍵。

Hierarchical RRL: 層次結構對於降低決策的複雜性以及允許跨不同任務的轉移非常重要。 分層RL是命題環境中的活躍研究主題。 關係設置允許更豐富的層次結構,其中包括“子任務”以及任務之間的“比特定對象更多”的關係。 這些更豐富的層次結構如何幫助學習? 如何自動學習這些層次結構?

Model Learning: 強化學習中的問題之一是如何表示和學習動作模型。除了瑣碎的領域之外,不可能在所有領域都明確地列出狀態。分解模型(例如Dynamic Bayes Networks)可以簡潔地表示動作。關係設置需要甚至更豐富的表示,例如,概率關係模型(PRM)或概率STRIPS樣式的運算符。我們如何學習這些更豐富的行動模型?我們如何在策略的推理和學習中使用它們? (Pasula et al,2004)報道了有關該主題的早期工作。

Policy Learning: 強化學習的核心辯論之一是策略學習還是價值功能學習更適合特定領域。當前的工作表明,在某些關係領域中,包括在塊世界中,可以通過策略學習獲得更好的泛化。在什麼情況下是這種情況?有可能改善價值函數方法,使其與策略學習競爭嗎?或者將價值功能學習整合到可學習的策略語言中,然後在定義策略時可以參考價值,是否更合適?這裏的一個相關問題是確定可以支持學習並在廣泛領域中代表有用策略的更好/理想的通用策略語言。

Satisficing: 命題強化學習與學習最佳策略有關。不幸的是,在許多關係域中,最優策略是NP難或更差的,而存在有用的多項式時間次優策略。如何在策略的最優性和效率之間做出權衡?以上報告的工作依賴歸納偏見以一種不太瞭解的方式進行此折衷。

Prior Knowledge: 人類似乎在處理大型領域時會利用(開發)領域知識。 缺乏處理先驗知識的手段可能是限制RL系統縮放的關鍵問題。 RL系統易於發現/傳達和有效利用哪些先驗知識? 關係表示法可以使此操作更容易並且以什麼成本進行? 學習和推理如何有效地互補?

Reasoning after Solution: 迄今爲止,最成功的RRL方法使用歸納方法來限制其保證解決方案質量的能力。 找到解決方案後,能否以任何易於處理的方式部署推理以驗證解決方案的質量和/或確定需要進一步計劃的問題區域?

A Summary of the Rest of the Proceedings

論文的其餘部分描述了針對上述各種問題的正在進行的研究工作。

Ramon和Driessens探索將示例選擇技術添加到Driessens的基於內核的迴歸算法中,以改善內存和計算要求,但更重要的是,增加計算的數值穩定性。 Walker,Shavlik和Matwin描述了一種構建有用特徵的方法,該方法通過隨機採樣大量相關特徵並將其用於正則化內核迴歸中以預測手工編碼策略的價值函數。他們在RoboCup域的Keep-Away子任務中獲得了可喜的結果。

Fern,Yoon和Givan的摘要總結了他們在近似策略迭代方面的工作及其在大型相關結構化決策理論計劃問題中的應用。 Itoh和Nakamura描述了一種方法,該方法用於學習是否在部分可觀察的域中以有限的內存在手動編碼的關係策略中使用每個規則。他們在迷宮般的領域中測試他們的算法,其中規劃有時是有用的,而問題是要學習何時有用。 Strens的論文描述了一種在部分可觀察的,二維,多agent追趕者逃避域中搜索參數化策略空間的方法。他表明,在追求者數量超過2個時,使用關係策略的性能要優於相同策略或聯合策略。Croonenborghs,Ramon和Bruynooghe認爲建立“影響模型”以從狀態特徵開始預測回報的方法。這些建立在貝葉斯邏輯程序框架中的模型與Q值結合使用,可以基於多步預見選擇動作。

Gretton和Thiebaux描述了一種有趣的方法,該方法將符號動態編程與歸納迴歸方法相結合,以在同時避開SDP的複雜推理問題的同時獲得兩者的好處。 Nason和Laird展示瞭如何通過添加獎勵和數字偏好將強化學習整合到SOAR體系結構中。他們討論了SOAR架構假設對其在關係域中有效學習的能力的影響。 Langley,Arai和Shapiro描述了一種稱爲ICARUS的認知架構,該架構結合了分層技能和反應性執行,並在有或沒有顯式動作模型的情況下進行對比學習。 Roncagliolo和Tadepalli描述了一種採用價值函數逼近的關係強化學習的分層方法。

莫拉萊斯提出了一種使用抽象形式的Q學習在抽象狀態空間中學習的方法。他還描述了一種從人類專家的痕跡中誘發相關行爲的方法。威爾遜(Wilson)的摘要指出了對錶達策略語言的需求,並傾向於採用簡單的策略。最後,van Otterlo和Kersting指出了關係強化學習的許多挑戰。這些包括髮展融合理論,瞭解基於策略的方法與基於價值函數的方法的相對優點,跨多個領域的概括以及利用先驗知識。

Conclusions

我們希望我們已經說服了讀者,關係強化學習提供了各種挑戰和機遇。 我們激勵了RRL,並概述了許多研究問題和一些有希望的方向。 隨着人們對AI中的關係表示形式的興趣日益濃厚,並且對強化學習的問題和前景有了更深入的瞭解,似乎現在該是一個成熟的時機來研究包括表達表示,推理和動作執行在內的綜合框架以嘗試解決實際感興趣的問題。 我們邀請讀者成爲這次冒險的完整參與者。

參考資源

[1] Tadepalli, Prasad, Robert Givan, and Kurt Driessens. “Relational reinforcement learning: An overview.” Proceedings of the ICML-2004 workshop on relational reinforcement learning. 2004. [paper]

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章