博弈論 Game Theory 博弈論研究的是自利者(self-interested)的策略性互動。 博弈論應用及其廣發,在經濟學,計算機科學 ,政治學,心理學以及其他學科都非常重要。 同時我們需要考慮這些互動如何去結構化
無模型預測 Model-Free Prediction 蒙特卡羅強化學習 Monte-Carlo Reinforcement Learning 從經歷完整的經驗序列來估計狀態值 MC methods learn directly
經典囚徒困境 兩個囚徒 選擇合作或不合作? 不合作被稱爲背叛(defect) 如果他們合作 他們得到結果A 如果都背叛 他們會得到另一個結果D 不過A比D更優 然而如果他們合作失敗 其中一方選擇合作 一方背叛
推薦系統 分類 基於內容的系統(Content-Based System) 目前的主流 這類系統主要考察的是推薦項的性質。例如,如果一個用戶觀看了同一類型的電影的多部電影,那麼系統就會將數據庫中的同一類型的電影推薦給該用戶。
數據挖掘 數據包含價值(value)和知識,而我們要做的事就是要提取知識數據 需要三部分: 1.存儲(系統課程) 2.管理(數據庫課程) 3.分析數據 ANALYZED (此數據挖掘課程的目標) 數據挖掘 ≈ 大數據 ≈ 預測分析
納什均衡 分析凱恩斯的選美比賽博弈 每個玩家都選擇1到100之間的一個整數 然後你有一羣參與者 那個選擇的整數最接近平均數的2/3的人贏得這個比賽 其餘人一無所得 平局會按均勻分佈隨機確定勝者 策略推理 第一次遊戲
PageRank技術 使用PageRank技術可以用來對抗詞項作弊(term spam)。 問題:詞項作弊。是一種欺騙搜索引擎讓其相信一個本來不相關的頁面,使其排名靠前的技術。 解決方案:使用PageRank技術來模擬web衝浪者
關聯規則探索 目標:確定同時購買的幾樣物品 方法:處理通過以下渠道收集的銷售數據 條形碼掃描儀以查找依賴關係 經典法則: 如果有人購買尿布和牛奶,那麼他/她就可能買啤酒 如果在尿布旁邊發現六包,不要感到驚訝! 定義 頻繁
佔優 帕累托最優理論 帕累托最優的定義 經典博弈中的帕累托最優 混合策略:
最優化原則 Principle of Optimality 價值迭代的定義 Value Iteration 反覆的迭代的過程。 最短路徑的例子 此類情況是在不知道終點在哪兒的情況。 從初始狀態0開始出發,逐步擴散迭代直到找到
智能體分類 Categorizing RL agents 基於價值 Value Based No Policy (Implicit) Value Function 基於行動決策 Policy Based Polic
嚴格劣勢策略 strictly dominated strategies 在穩定性和預測上analyzing games in terms of stability, in terms of predicting. ,人們可以想到
完全信息擴展式博弈 perfect information extensive-form games 是一種涉及時間的博弈。 回想一下 規範式博弈模型當中,所有參與者同時採取行動。這意味着很難用它們考慮人們要按順序做事的一些
博弈學習 (learning) 我們會看學習在重複博弈中的兩種學習類型 虛構博弈 (fictitious play) 無悔學習(no-regret learning) ,尤其是一個算法叫後悔匹配 (regret match
貝葉斯博弈(Bayesian Games) 拍賣例子1 當我們講拍賣 auctions時,我們會想到1885年的木刻,它展示了澳大利亞墨爾本的茶葉拍賣。有一個戴着禮帽的人,站在房間的前面,他手裏拿着一個木槌,他可能會用一種詼諧的