OpenAI Gym 是一個最廣泛使用的強(qiáng)化學(xué)習(xí)實(shí)驗環(huán)境橱乱,內(nèi)置上百種實(shí)驗環(huán)境弟塞,比如一些簡單幾何體的運(yùn)動稿械,一些用文本表示的簡單游戲,或者機(jī)械臂的抓取和控制等實(shí)驗環(huán)境乏沸。
安裝Gym后淫茵,一般的使用流程是:
1. 加載 gym 庫:
import gym
2. 進(jìn)入指定的實(shí)驗環(huán)境:
env = gym.make("Taxi-v2").env
3. 渲染環(huán)境,即可視化看看環(huán)境的樣子:
env.render()
其中 env 是 gym 的核心接口蹬跃,有幾個常用的方法也是實(shí)驗中通用的:
1. env.reset匙瘪, 重置環(huán)境,返回一個隨機(jī)的初始狀態(tài)蝶缀。
2. env.step(action)丹喻,將選擇的action輸入給env,env 按照這個動作走一步進(jìn)入下一個狀態(tài)翁都,所以它的返回值有四個:
observation:進(jìn)入的新狀態(tài)
reward:采取這個行動得到的獎勵
done:當(dāng)前游戲是否結(jié)束
info:其他一些信息碍论,如性能表現(xiàn),延遲等等柄慰,可用于調(diào)優(yōu)
3. env.render鳍悠,這個前面說過可以可視化展示環(huán)境
注意到,在 state1-action-state2 這個過程中坐搔,action 是需要我們決定的藏研,通常會通過 greedy search 和 q learning 等算法選擇,而 state1概行,state2 就可以用 env 自動獲取蠢挡。