台部落噓，小點聲

人的大腦的意識分爲潛意識表意識前意識前意識是守門員，表意識是理性思維和判斷，潛意識是本能人的潛意識分爲自我本能中層高層中層是指記憶和心智模式高層是指頓悟心流（文思如泉涌）差異化思維領導力的發展路徑爲格物

2020-05-30 22:01:11

異常檢測-問題動機爲了進行數據條目的異常檢測（正樣本很少的二分類問題），使用密度估計的方法，在每條數據中，每個x的特徵可能性爲𝑝(𝑥)。當模型概率𝑝(𝑥)累乘值小於epsilon，則認爲是一條異常條目。在下圖中，數據集中的中心區域，其概

2020-05-30 22:00:59

估計價值的方法MC與TD MC（Monte-Carlo）的方法，在Sutton的書中有比較權威並詳細的說明。地址：https://rl.qiwihui.com/zh_CN/latest/index.html 下圖是首次訪問型的MC方法，估計

2020-05-23 14:11:42

數據壓縮將二維數據降低到一維數據的方法，有直接替換的方法。下圖中，將數據條目的二維特徵x1,x2，轉化爲了一維特徵z1。其中，x1和x2是直接相關的（因爲四捨五入出現了一些偏差），而z1等於x1。但是更通用的方法，應該是建立一個直線，該

2020-05-23 14:11:42

tf.gradients tf.stop_gradient np.ravel tf.distrbution.prob/sample 獲取對應位置的概率值 python的Queue tf.se

2020-05-16 14:27:39

Actor-Critic算法在之前的Policy Gradient算法中，其運行結果不夠穩定的至少一條原因是：獎勵項不夠穩定。下圖中，藍色實現標記的當前和隨後的獎勵累積和，作爲評判𝜋生成的軌跡的好壞度量，即通過累積和修正𝑙𝑜𝑔𝑝_𝜃

2020-05-15 14:33:24

本文主要是整理策略迭代的部分，重在闡明原理。李宏毅的視頻，見網上。最終說明OpenAI的默認強化學習算法PPO的部分。（Proximal Policy Optimization）藍色標記爲有待查閱具體代碼。不同於強化學習的值迭代的容易理

2020-05-14 14:30:33

核函數2 知道了核函數的表示形式（使用例如高斯核函數作爲工具，計算樣本x和地標l之間的距離作爲特徵f，其中f爲核函數），之後就是討論核函數地標的選擇。選擇形式爲：將訓練集中的樣本個數m選擇，作爲地標，獲得m個特徵f。並增加一個偏置f0=1

2020-05-12 14:23:34

反向傳播的直觀理解在如下例子的神經網絡中，誤差從後向前傳遞。誤差反向傳遞的過程中，以權值theta作爲反向傳遞的依據。如delta(4)1=y-a(4)1作爲最終的誤差。delta(3)2=theta(3)02*delta(4)1，de

2020-04-21 14:06:23

神經網絡模型表示前向傳播每一層都增加一個偏差單位x0=1和a0=1以後，使用如下公式推導出輸出h。相當於輸入層的x經過權重theta乘積變換後重組爲特徵輸出a，然後a再經過變換得到結果h。 theta作爲權值矩陣的表

2020-04-15 14:16:50