原创 單步強化學習在糖豆推薦系統的應用

1.強化學習基礎 1.1 強化學習概念 強化學習通常用馬爾科夫決策過程(Markov Desicision Process)來描述:機器(agent)在環境(environment)中,狀態空間爲S,其中每個狀態s∈S是機器所處於的環境的描