創(chuàng)建table(pandas.DataFrame(? np.zeros(n_states, len(actions)),? columns = actions)? ),這個table橫軸是state第幾步縱軸是動作action,通過
值把所有的state
?和 action
?對應上雏逾,選動作的時候就根據(jù)
值和state嫌套,以及環(huán)境變量的feedback憋沿。
預定義global變量:n_states=6 表示在環(huán)境中出發(fā)點距離目標的baseline步數(shù)葵诈,actions=['left','right']表示有哪些可以選擇的動作罐柳,表示greedy policy也就是隨機的大于90%的情況選擇價值最大的action其余10%的情況锻狗,?
表示學習率满力,
表示對未來獎勵的一個衰減值,episode表示最多訓練多少個回合轻纪,fresh_time表示每走一步花多長時間油额。
Initialize arbitrarily
Repeat (for each episode):
? ? Initialize?
? ? Repeat (for each step of an episode):
? ? ? ? choose? from?
using policy derived from?
(e.g. ε-greedy)? ?
? ? ? ? take action , observe
? ? ? ??
? ? ? ?
? ? until? is terminal