最近,斯坦福大學發佈了一部新書:《決策算法》( Algorithms for Decision Making),該書主要由Mykel J.Kochenderfer教授編撰。
Mykel J.Kochenderfer教授帶領的斯坦福智能系統實驗室(SISL)實驗室,每年在計算機領域各大頂級會議和期刊上收穫頗豐,僅在2021年這一個月裏,實驗室已經有9篇論文於AAAI2021,AAMAS2021,AIAA Journal等頂級會議和期刊上發表。
在這裏簡單介紹下,斯坦福智能系統實驗室(SISL)的研究主要是關於用於設計魯棒決策系統的先進算法和分析方法。
其中,實驗室特別感興趣的細分領域有:系統的空中交通管制,無人駕駛飛機和其他需要在不確定動態環境下,在保持安全和效率的同時,需要做決策的航空航天應用。
SISL主要集中在對高效的計算方法的研究上,重點關注如何從高維、概率的問題中推導出最優的策略決策。
圖:SISL成員合照
這本新書《決策算法》主要介紹了在不確定情況下的最優決策算法:
該書涵蓋了與決策相關的各種主題,介紹了問題中隱含的數學公式以及解決它們的算法。此外,本書中添加了許多舉例和練習題,來傳達各種方法下蘊含的直覺。
此書是爲高年級本科生和研究生以及專業人員準備的。要學習這本書的內容,閱讀者需要有一定的數學功底,並接觸過多變量微積分,線性代數,和概率的概念。
這本教科書的基礎是算法,並都用Julia編程語言實現。除此之外,附錄中還提供了一些複習材料。
從這本書受益最大的學科有數學、統計學、計算機科學、航空航天、電氣工程和運籌學。
先對本書的部分章節進行詳解:
第一章:概率推理
主要講述了概率推理(Probabilistic Reasoning),主要包括以下小節:
-
表示(Representation) -
推理(Inference) -
參數學習(Parameter Learning) -
結構學習(Structure Learning) -
簡單決策(Simple Decisions)
從討論如何用概率分佈表示不確定性開始,作者將討論如何構建模型,如何使用模型進行推斷,以及如何從數據中學習模型的參數和結構。
之後,作者介紹了效用理論的基礎,並展示了它是如何在不確定性下形成理性決策的。效用理論可以被納入概率圖形模型,形成所謂的決策網絡。該章節將重點放在單步決策上,對連續決策問題的討論將留到本書的下一部分。
第二章:序列問題
書的第二章主要講述了序列問題(Seqential Problems),主要包括以下小節:
-
確切解決方法(Exact Solution Methods) -
近似值函數(Approximate Value Functions) -
在線規劃(Online Planning) -
策略搜索(Policy Search) -
策略梯度估計(Policy Gradient Estimation) -
策略梯度優化(Policy Gradient Optimization) -
Actor-Critic算法(Actor-Critic Methods) -
策略驗證(Policy Validation)
此前的章節都假設在某個時刻所需要做的是單一的決定,但許多重要的問題需要我們做出一系列的決定。
在此情況下,最大期望效用原則仍然適用,但是在序列環境下的最優決策需要對未來的序列操作和觀察進行推理。
這本書的這一章節將討論隨機環境中的順序決策問題。作者將在模型已知和環境完全可觀察的假設下,關注順序決策問題的一般公式。在之後的章節中,作者將會放鬆這兩個假設。
本章的討論將從引入序列決策問題的標準數學模型——馬爾可夫決策過程開始,主要討論了幾種求精確解的方法、離線和在線近似解決方法的集合,以及一種涉及直接搜索參數化決策策略空間的方法。
第三章:模型不確定性
主要講述了模型不確定性(Model Uncertainty),主要包括以下小節:
-
探索和利用(Exploration and Exploitation) -
基於模型的方法(Model-Based Methods) -
脫離模型的方法(Model-Free Methods) -
模仿學習(Imitation Learning)
在討論順序決策問題時,本書假設轉移模型和報酬模型是已知的。然而,在許多問題中,這些模型並不是完全已知的,而且代理必須通過經驗學會進一步的操作。
通過觀察狀態轉換獎勵形式的行爲結果,代理選擇能夠最大化其長期獎勵積累的行爲,解決這種存在模型不確定性的問題是強化學習領域的主題,也是本書這一部分的重點。
在該章中,作者討論瞭解決模型不確定性的幾個挑戰:
首先,代理必須謹慎地掌握探索環境和利用基於經驗的知識的平衡。
第二,獎勵可能是在重要決定做出很久之後纔得到的,所以較晚的獎勵必須分配給較早的決定。
第三,代理必須從有限的經驗中進行概括。對此,作者回顧瞭解決這些挑戰的理論和一些關鍵的算法。
第四章:狀態不確定性
主要講述了狀態不確定性(State Uncertainty),主要包括以下小節:
-
信念(Beliefs) -
確切信念狀態規劃(Exact Belif State Planning) -
離線信念狀態規劃(Offline Belief State Planning) -
在線信念狀態規劃(Online Belif State Planning) -
控制器抽象(Controller Abstractions)
前幾章包括了過渡函數中的不確定性,包括結果狀態和模型中的不確定性。在本章中,作者將不確定性擴展到狀態領域。
第19章展示瞭如何根據過去的觀察和行動序列更新信念的分佈。第20章概述了優化策略的精確方法。
第21章回顧了各種離線逼近方法,它們在處理更大的問題時比精確的方法有更好的伸縮性。
第22章擴展了在線近似方法以適應部分可觀測性。
第23章介紹了有限狀態控制器,來表示優化策略和方法。
第五章:多代理系統
主要講述了多代理系統(Multiagent Systems),主要包括以下小節:
-
多代理推理(Multiagent Reasoning) -
序列問題(Squential Problems) -
狀態不確定性(State Uncertainty) -
協作代理(Collaborative Agents)
到目前爲止,本書主要是從單個代理的角度來進行決策。現在,討論的核心概念將會擴展到涉及多個代理的問題。
在多代理系統中,我們可以將其他代理模擬爲潛在的盟友或對手,並隨着時間的推移相應地進行調整。
第24章介紹了博弈中的多代理推理,並概述瞭如何從簡單的交互作用中計算均衡。
第25章討論瞭如何爲隨着時間的推移而交互的多個主體設計算法,描述了偏向於理性適應而非均衡收斂的學習算法。
第26章表明,狀態不確定性顯著增加了問題的複雜性,並強調了這些領域的獨有的挑戰和困難。
第27章重點介紹了協作代理的各種模型和算法。
以上就是全書大概的介紹啦,感興趣的小夥伴可以下載全書哦
獲取的方式很簡單,直接掃描下方公衆號回覆關鍵字「決策算法」,即可獲取!
長按下面的二維碼,關注公衆號“後端面試那些事”
回覆 “決策算法” 四字自行領取吧
往期推薦
本文分享自微信公衆號 - 程序猿DD(didispace)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。