深度學習之-Qlearning

1.前人栽樹

1.1 知乎上這篇文章關於小鳥飛的例子講得很到位，先睹爲快：https://www.zhihu.com/question/26408259

1.2 csdn上另一篇大神的翻譯，走迷宮的例子，http://blog.csdn.net/itplus/article/details/9361915

1.3 試玩一把，理解會更加深刻的哦：https://enhuiz.github.io/flappybird-ql/

2.我的笨功夫

2.1 再理解小鳥飛例子

小鳥飛例子-建模關鍵點：

增強學習有三個要素：狀態S，動作A，獎懲R的策略Q

S:d(x,y)表示小鳥離下一根柱子的距離和高度差

A:飛一下或者不飛，兩種可選動作

Q（S+A->R）爲一個策略表，也稱之爲Q，其實就是我們最終想學到的東西。就是在某狀態S下采用不同動作A 可以得到的獎懲R。

如何訓練：

Initialize Q arbitrarily //隨機初始化Q值 (撞地上或者柱子上初始化爲負值)
Repeat (for each episode): //每一次遊戲，從小鳥出生到死亡是一個episode 
         Initialize S //小鳥剛開始飛，S爲初始位置的狀態
        Repeat (for each step of episode): 
         。。。根據當前Q和位置S，使用一種策略，得到動作A //這個策略可以是ε-greedy等 
        做了動作A，小鳥到達新的位置S'，並獲得獎勵R //獎勵可以是1，50或者-1000 
        Q(S,A) ← (1-α)*Q(S,A) + α*[R + γ*maxQ(S',a)] //在Q中更新S 
        S ← S' 
until S is terminal //即到      小鳥死亡爲止

關鍵的這一步怎麼理解呢？
Q(S,A) ← (1-α)*Q(S,A)+ α*[R + γ*maxQ(S',a)]

1 當處於S狀態採取A策略後，根據S'我們可以得到R, 那麼這個R應該跟新到Q(S,A)中,我們可能會這樣做：

Q(S,A) ← (1-α)*Q(S,A) + α*R，其中α是0~1之間的一個數，我們稱之爲學習率。

2 上面的公式太短視，我們更新Q(S,A) 時是不是要考慮一下，通過步驟A走到下一個狀態S'的收益呢？

Q(S,A) ← (1-α)*Q(S,A) + α*[R + γ*Q(S',？)]

其中γ是一個0~1的小數，表示我們關注長期（下一步）收益的程度，代表對歷史經驗的重視程度。

3 Q(S',？)表示狀態S'的收益，Q(S',？)有飛和不飛2個值，我們既然知道獎懲，肯定是採

用Q(S',？)中最大的那一種操作於是我們得到

Q(S,A) ← (1-α)*Q(S,A)+ α*[R + γ*maxQ(S',a)]

3.代碼片段

基於走迷宮例子的講解，ql的簡單python實現版本

# -*- coding: utf-8 -*-
import  xdrlib ,sys
import input
import numpy as np
import xlrd
import scipy as sp
def open_excel(file):
    try:
        data = xlrd.open_workbook(file)
        return data
    except Exception,e:
        print str(e)

#根據索引獲取Excel表格中的數據   參數:file：Excel文件路徑     colnameindex：表頭列名所在行的所以  ，by_index：表的索引
def excel_table_byindex(file,colnameindex=0,by_index=0):
    data = open_excel(file)
    table = data.sheets()[by_index]
    nrows = table.nrows #行數
    ncols = table.ncols #列數
    colnames =  table.row_values(colnameindex) #某一行數據


    list =[]
    for rownum in range(0,nrows):

         row = table.row_values(rownum)
         if row:
             app = []
             for i in range(0,len(colnames),1):
                 app.append(row[i])
             list.append(app)
    list = np.array(list)
    return list

#根據名稱獲取Excel表格中的數據   參數:file：Excel文件路徑     colnameindex：表頭列名所在行的所以  ，by_name：Sheet1名稱
def excel_table_byname(file,colnameindex=0,by_name=u'Sheet1'):
    data = open_excel(file)
    table = data.sheet_by_name(by_name)
    nrows = table.nrows #行數
    colnames =  table.row_values(colnameindex) #某一行數據
    list =[]
    for rownum in range(0,nrows):
         row = table.row_values(rownum)
         if row:
             app = {}
             for i in range(len(colnames)):
                app[colnames[i]] = row[i]
             list.append(app)
    list = np.array(list)
    return list

def Reward(start,stat_j,end,forword_step,a,r,Q,reward): #start 爲當前位置,action_j爲下一步位置,forword_step爲向前看的步數,a和r是學習率參數,a控制，r控制未來收益
    #if forword_step==1 or start==stat_j: #如果向前看的步數爲0,則退出,返回當前的值就可以了,目光和短淺,不會向前看
    #    return a*reward+(1-a)*R[start][stat_j]
    #向前看一步時,下一步狀態是stat_j
    reward = reward + r*max(Q[stat_j])
    #next_step = np.argwhere(R[stat_j] == max(R[stat_j]))[0][0]

    #if start==next_step or next_step==end:
        #return reward +  R[start][stat_j]
    #Reward(stat_j, next_step, end,forword_step-1, a, r*r, R, Q, reward)
    #return r*reward+R[start][stat_j]
    return reward

if __name__=="__main__":
    file = './data/input.xlsx'
    R = input.excel_table_byindex(file) #R 是R矩陣
    mapsize = R.shape
    Q = np.zeros((mapsize[0], mapsize[1]))#Q函數我們的目標
    #Q = np.random.random((mapsize[0], mapsize[1]))#Q函數我們的目標
    r=0.8 ; a=0 #r是對未來的看重程度,r越大,越重視將來
    end=5 #終止狀態爲6,只要蟲子走到狀態6,認爲該遊戲結束
    R[end][end]=100
    forward_step=2 #每次向前看3步
    episode=1000
    for i in range(1,episode,1): #一共迭代episode次,
        #每一次訓練隨機產生一個位置
        start = np.random.randint(0, 6)
        if start==end:
            Q[start][end]=R[start][end]
            continue
        print "i="+str(i)
        print "start="+str(start)
        reward = -1
        while start!=end : #蟲子沒有走到終止狀態
            road=np.zeros((mapsize[1],1))-1 #處於狀態start時,可走路徑的收益存入到road中
            for j in range(0,len(R[start]),1): #遍歷當下可走的路徑
                if R[start][j]!=-1: #j這條路可走,更新Q函數
                    reward = R[start][j]
                    road[j] =Reward(start,j,end,forward_step,a,r,Q,reward) #start 爲當前位置,j爲下一步位置,2爲向前看的步數
            rdm = np.random.rand(road.shape[0],road.shape[1]) #產生一個隨機數組
            road = road * rdm  #在可走的道路里,隨機走
            candidate = np.argwhere(road == max(road)) #走可能性最大的
            reward = max(road)#取最大路徑上的收益
            next_step = candidate[np.random.randint(0, candidate.shape[0])][0] #如果有多個最大的,隨機選擇一個最大的來走
            Q[start][next_step]=reward
            start=next_step #更新當前的狀態
        print Q.astype(int)

深度學習之-Qlearning

1.前人栽樹

2.我的笨功夫

3.代碼片段

基於 Nginx Ingress + 雲效 AppStack 實現灰度發佈

12款高效開源Wiki系統推薦，打造團隊知識管理利器

C語言--右移左移

一個開源且全面的C#算法實戰教程

dotnet 基於 DirectML 控制檯運行 Phi-3 模型

自定義MyBatis插件

一款.NET開源、功能強大、跨平臺的繪圖庫 - OxyPlot

常用的 Git 指令

鼠標控制軟件有可能和虛擬機軟件產生衝突

sm4加密工具類

網絡盲寫點網絡（2015某市海康技術支持筆試）

linux命令

HIT-FA

python中關於文件的操作

RNN粗淺理解

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結