台部落芷若初荨

上上一章已經學習了感知機模型、策略和算法，感知機對於分類任務有着其優點，但是該模型是在具有強假設的條件下——訓練數據集必須是線性可分的，但是如果數據集是呈現無規則的分佈，那麼此時如果要做分類任務，還可以考慮k近鄰（KNN），這是一

2020-06-27 05:11:42

——如果有想關注Java開發相關的內容，可以轉Java修煉之道詳細觀看—— Seaborn 既然有了matplotlib,那爲啥還需要seaborn呢？其實seaborn是在matplotlib基礎上進行封裝，Seaborn就

2020-06-27 05:11:42

在學習和推導了統計學習方法-李航(第2版)中的內容，收穫蠻多，對此，既然輕輕地來了，那就得瀟灑地給這個階段學習的內容畫上一個圓滿的句號。統計學習方法總結以下是整本書中出現的10種統計學習方法的特點和概括總結，對於學習的一些方法

2020-06-27 05:11:42

分享一篇文章：The Meaning of Underscores in Python。本文介紹了Python中單下劃線和雙下劃線（"dunder"）的各種含義和命名約定，名稱修飾（name mangling）的工作原理，以及它

2020-06-27 05:11:42

最近由於在準備春招，在刷題的同時，對於常見的基本排序算法仍然存在一些沒掌握的地方，因此，再次做個簡單的總結—— 首先，就從彙總表開始—— 規律小結 “不穩定”排序算法：快、些(希)、選、堆。簡單排序包括除希爾排序之外的所有冒

2020-06-27 05:11:42

在上一章節主要是闡述了基於模型的方法來求解強化學習的預測問題和控制問題，但是由於動態規劃法需要在每一次回溯更新某一個狀態的價值時，回溯到該狀態的所有可能的後續狀態。導致對於複雜問題計算量很大。同時很多時候，我們連環境的狀態轉化模型

2020-06-27 05:11:40

在整理一些相關的數學基礎知識後，接下來就讓我們來和Reinforcement Learning來個第一次的約會😊😝吧！個人覺得，在學習一個新知識的過程中，一般都會是What->How->Why的思路去認識以及理解這個新知識，那麼

2020-06-27 05:11:40

具體詳情可以轉我的博客-SSD算法思想和結構詳解進行查看！

2020-06-27 05:11:40

經過初始瞭解強化學習的基本要素後，單單地憑藉着這些要素還是無法構建強化學習模型來幫助我們解決實際問題，那麼最初地模型是基於Q表格的方式來解決問題，常見的模型可以分成model-based和model-free兩大類別，model-

2020-06-27 05:11:40

——如果有想關注Java開發相關的內容，可以轉Java修煉之道詳細觀看—— Matplotlib——Python可視化包折線圖繪製折線圖適合二維的大數據集，還適合多個二維數據集的比較，主要是用於反映數據的發展趨勢變化情況。

2020-06-27 05:11:40

最近在學習特徵工程相關的東西，發現pandas_profiling這個包特別適合直觀地能夠展示數據地很多細節的地方，包括缺失值等相關信息。然後，我就開始折騰pip install pandas_profiling發現一下子把原本

2020-06-27 05:11:40

策略梯度提供了和DQN之類的方法不同的新思路，但是我們上面的蒙特卡羅策略梯度reinforce算法卻並不完美。由於是蒙特卡羅法，我們需要完全的序列樣本才能做算法迭代，同時蒙特卡羅法使用收穫的期望來計算狀態價值，會導致行爲有較多的變

2020-06-27 05:11:40

在前面講到的DQN系列強化學習算法中，我們主要對價值函數進行了近似表示，基於價值來學習。這種Value Based強化學習方法在很多領域都得到比較好的應用，但是Value Based強化學習方法也有很多侷限性，因此在另一些場景下我

2020-06-27 05:11:40

在之前講到了強化學習求解方法，無論是動態規劃DP，蒙特卡羅方法MC，還是時序差分TD，使用的狀態都是離散的有限個狀態集合SSS。此時問題的規模比較小，比較容易求解。但是假如我們遇到複雜的狀態集合呢？甚至很多時候，狀態是連續的，那麼

2020-06-27 05:11:40

在實習的過程中給，碰到有個項目是有關醫療行業中某種疾病的預測，正好需要加補點強化學習的相關基礎以及知識，經過朋友推薦，考慮並加入了百度AI Studio開展的強化學習課程，以便於提升自己的知識面，下面是由大度大佬提供的學習資料—

2020-06-27 05:11:40