原创 獲取多條最短路徑的Dijkstra算法

Dijkstra算法是單源最短路徑經典算法,一般用於所有邊的權爲非負數的情況下,有向圖和無向圖均可。 效率方面:存儲圖模型的數據結構有很多種,使用鄰接矩陣的話其空間複雜度都爲O(E^2)。而如果是稀疏圖,使用鄰接鏈表更划算,空間複雜度爲O

原创 強化學習中的off-policy 和on-policy

強化學習可以分成off-policy(離線)和on-policy(在線)兩種學習方法,按照個人理解,判斷一個強化學習是off-policy還是on-policy的依據在於生成樣本的policy(value-funciton)和網絡參數更新