百度飛槳世界冠軍帶你從零實踐強化學習總結

原創

2020-07-03 14:53

強化學習個人感悟

強化學習就像是人類幾代人不斷的探索獲得一個比較好的結果的過程，類似於適者生存的過程，但是就是通過機器的學習與算法在模擬這個過程，儘可能獲得一個比較好的收益（對於機器來說）（對於我們來說是獲得一個較準確的結果），通過算法模擬獲得一個比較好的結果。

當然除了算法還有神經網絡和Q表格之類的，可以把可能出現的非連續的或連續的情況進行模擬。通過數字等模擬建模生成一個對象進行反映，反映出來的數據就是我們的訓練結果，結果好就是傳說中的人工智能，不好那就是傳說中的人工智障。

學習思路

首先是Python基礎，numpy庫、pandas庫、matplotlib庫等基礎數據處理分析庫的掌握情況。
然後是一些數學的基礎知識，有些時候不一定懂但是一定要回用，還有基礎統計學知識。
接着是深度學習的和強化學習的理論課程，然後就是運用已有模型進行練習和學習。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

RHCSA基礎（及破解linux root密碼）

Redhat linux 操作系統 RHCSA redhat certified system administrator RHCE redhat certified engineer 工程師 RHCA

2020-07-07 19:25:06

數據挖掘-理論與算法公開課筆記

數據挖掘-理論與算法公開課筆記製作：紀元本提綱遵循CC-BY-NC-SA協議(署名-非商業性-相同方式共享) 最近更新時間：2020年3月4日01:48:00 文章目錄10.2.1.1 Data Cleaning 數據清洗

2020-07-02 19:54:05

20180607-CSS-CSS選擇的樣式-CSS繼承、層疊、優先級

HTML文檔結構：CSS繼承：從父元素那繼承部分CSS【部分！！！】繼承好處：（部分！）1.父元素設置樣式，子元素可以繼承部分屬性。2.減少CSS代碼。默認字體大小：CSS層疊：可以定義多個樣式；不衝突時，多個樣式可層疊爲一個；衝突時，按

2020-07-02 15:35:14

20180530-HTML基礎-第四章-圖像和超鏈接

圖像標籤（px像素，不隨對話框大小改變，百分比會隨對話框改變）img圖片src源頭（source）爲什麼圖像超鏈接失敗？？？？？？相對引用：同級文件夾引用上一級文件圖片引用下級圖片引用相對圖像引用總結超鏈接標籤（輸入#時，會變小手，但是不

2020-07-02 15:35:14

20180612-CSS-盒子模型-系列

課程內容：盒子模型屬性：IE6瀏覽器不支持max-width和min-width有設置div600px的啊，爲啥爲啥是1350？？？？？高度屬性設置：p{background-color:#ececec;height:200px;floa

2020-07-02 15:35:10

dom和sax（補充）

1、dom解析 getTextContent() 獲取元素中的文本值節點的添加 Public static void crea

mayouarebest8621

2020-06-27 17:08:02

自定義標籤（實例）

自定義標籤（實例） 1、自定義if…..else文件 a) Jsp代碼：(主體) <body> <csdn:ch

mayouarebest8621

2020-06-27 17:08:01

JSP的執行過程\JSP的隱式對象

JSP頁面就是帶有JSP元素的常規Web頁面，它由靜態內容和動態內容構成。一、JSP的執行過程 JSP的執行過程主要可以分爲以下幾點： 1、客

2020-06-27 04:50:15

JSP動作--JSP有三種註釋方式

一、JSP動作動作是特殊的標記，通過一個動作標記可以實現多行Java代碼實現的效果。可以動態插入文件、重用JavaBean組件、導向另一個頁面

2020-06-27 04:50:15

麻省理工公開課人工智能筆記七

本篇是關於着色問題的討論約束傳播思想：約束規劃(Constraint programming， CP) 是人工智能領域的研究方法，適合求解具有多種約束的組合優化問題.約束傳播是CP 的關鍵技術之一，其基本思想是通過循環分析變量、值域

2020-06-24 20:11:57

麻省理工公開課人工智能筆記五

關於博弈的討論---計算機關於象棋博弈計算機實現象棋博弈的幾種方法的討論第一種方式是像人類，計算機討論兵型，戰術，棋局時機等，這顯然無法做到。第二種方法考慮計算機的如果-那麼規則；即如果將兵前移一位，那麼就那樣做。這樣做對棋盤沒有評

2020-06-24 18:53:38

麻省理工公開課人工智能筆記八

本篇講的是物體識別的相關知識首先是大衛-馬爾的想法，來自攝像頭識別的物體，首先進行輪廓描述，然後使用向量表示方向，第三階段使用方向的簡單圖形表示，如下圖是一個圓柱的三種表示階段第二階段可以認爲是一個2.5圍的圖形，第三階段表示爲一個

2020-06-24 18:53:38

麻省理工公開課人工智能筆記十一

本篇講神經網絡方面內容。首先看樸素生物學，神經網絡的展開。如上圖，畫出一個神經細胞，右邊是軸突，左邊是樹突樹，上有軸突與下游樹突相連，軸突中神經遞質經囊泡傳往樹突，當積累的神經遞質足夠多，就會產生一個尖峯信號傳遞，沿軸突向下遊樹突傳

2020-06-24 18:53:38

麻省理工公開課人工智能筆記十六

本篇主要講boosting算法，基於分類器，以二分類爲例有一個分類器h，他只有兩種結果{+1，-1}，他的出錯概率爲從0到1，假設概率接近0.5但是弱分類器，接近0的是強分類器，那能否使用多個弱分類器得到強分類器呢。假設我們有一個

2020-06-24 18:53:38

麻省理工公開課人工智能筆記十

本篇主要講識別樹的相關知識，以如何辨別吸血鬼爲例首先給出了一組數據在這個數據集中，有幾個明顯的特徵 ①數據全是符號，沒有數字 ②特徵數據並不全部有用 ③有些測試可能代價很大所以我們無法使用最近鄰算法去確定一個有特定特徵的人是否爲吸

2020-06-24 18:53:38

24小時熱門文章

Spring Cloud 部署時如何使用 Kubernetes 作爲註冊中心和配置中心

最新文章

最新評論文章