原创 領導力與正念

人的大腦的意識分爲 潛意識 表意識 前意識 前意識是守門員,表意識是理性思維和判斷,潛意識是本能   人的潛意識分爲 自我 本能 中層 高層 中層是指記憶和心智模式 高層是指頓悟 心流(文思如泉涌) 差異化思維   領導力的發展路徑爲 格物

原创 按部就班的吳恩達機器學習網課用於討論(13)

異常檢測-問題動機 爲了進行數據條目的異常檢測(正樣本很少的二分類問題),使用密度估計的方法,在每條數據中,每個x的特徵可能性爲𝑝(𝑥)。 當模型概率𝑝(𝑥)累乘值小於epsilon,則認爲是一條異常條目。在下圖中,數據集中的中心區域,其概

原创 李宏毅的強化學習視頻用於梳理翻閱(3)值

估計價值的方法MC與TD MC(Monte-Carlo)的方法,在Sutton的書中有比較權威並詳細的說明。地址:https://rl.qiwihui.com/zh_CN/latest/index.html 下圖是首次訪問型的MC方法,估計

原创 按部就班的吳恩達機器學習網課用於討論(12)

數據壓縮 將二維數據降低到一維數據的方法,有直接替換的方法。下圖中,將數據條目的二維特徵x1,x2,轉化爲了一維特徵z1。其中,x1和x2是直接相關的(因爲四捨五入出現了一些偏差),而z1等於x1。 但是更通用的方法,應該是建立一個直線,該

原创 tensorflow零起點快速入門(7),截圖整理

tf.gradients       tf.stop_gradient   np.ravel     tf.distrbution.prob/sample 獲取對應位置的概率值     python的Queue     tf.se

原创 李宏毅的強化學習視頻用於梳理翻閱(2)

  Actor-Critic算法 在之前的Policy Gradient算法中,其運行結果不夠穩定的至少一條原因是:獎勵項不夠穩定。 下圖中,藍色實現標記的當前和隨後的獎勵累積和,作爲評判𝜋生成的軌跡的好壞度量,即通過累積和修正𝑙𝑜𝑔𝑝_𝜃

原创 李宏毅的強化學習視頻用於梳理翻閱

本文主要是整理策略迭代的部分,重在闡明原理。李宏毅的視頻,見網上。 最終說明OpenAI的默認強化學習算法PPO的部分。(Proximal Policy Optimization) 藍色標記爲有待查閱具體代碼。不同於強化學習的值迭代的容易理

原创 按部就班的吳恩達機器學習網課用於討論(11)

核函數2 知道了核函數的表示形式(使用例如高斯核函數作爲工具,計算樣本x和地標l之間的距離作爲特徵f,其中f爲核函數),之後就是討論核函數地標的選擇。 選擇形式爲:將訓練集中的樣本個數m選擇,作爲地標,獲得m個特徵f。並增加一個偏置f0=1

原创 按部就班的吳恩達機器學習網課用於討論(8)

反向傳播的直觀理解 在如下例子的神經網絡中,誤差從後向前傳遞。誤差反向傳遞的過程中,以權值theta作爲反向傳遞的依據。 如delta(4)1=y-a(4)1作爲最終的誤差。delta(3)2=theta(3)02*delta(4)1,de

原创 按部就班的吳恩達機器學習網課用於討論(7)

神經網絡模型表示 前向傳播 每一層都增加一個偏差單位x0=1和a0=1以後,使用如下公式推導出輸出h。 相當於輸入層的x經過權重theta乘積變換後重組爲特徵輸出a,然後a再經過變換得到結果h。        theta作爲權值矩陣的表