gym 介紹

1. 組成

OpenAI Gym由兩部分組成:

  1. gym開源庫:測試問題的集合单匣。當你測試強化學(xué)習(xí)的時候伍纫,測試問題就是環(huán)境噪沙,比如機器人玩游戲,環(huán)境的集合就是游戲的畫面哄辣。這些環(huán)境有一個公共的接口请梢,允許用戶設(shè)計通用的算法赠尾。
  2. OpenAI Gym服務(wù):提供一個站點(比如對于游戲cartpole-v0:https://gym.openai.com/envs/CartPole-v0)和api,允許用戶對他們的測試結(jié)果進行比較毅弧。

2. 接口

gym的核心接口是Env气嫁,作為統(tǒng)一的環(huán)境接口。Env包含下面幾個核心函數(shù):

  • reset(self):重置環(huán)境的狀態(tài)够坐,返回觀測寸宵。
  • step(self, action):物理引擎,向前推進一個時間步長元咙,返回observation梯影,reward,done庶香,info
  • render(self, mode=’human’, close=False):圖像引擎甲棍,重繪環(huán)境的一幀。默認模式一般比較友好赶掖,如彈出一個窗口感猛。

3. 注冊自己的模擬器

  1. 目標是在注冊表中注冊自己的環(huán)境。假設(shè)你在以下結(jié)構(gòu)中定義了自己的環(huán)境:
myenv/
    __init__.py
    myenv.py
  1. myenv.py包含適用于我們自己的環(huán)境的類奢赂。 在init.py中陪白,輸入以下代碼:
from gym.envs.registration import register
register(
    id='MyEnv-v0',
    entry_point='myenv.myenv:MyEnv', # 第一個myenv是文件夾名字,第二個myenv是文件名字膳灶,MyEnv是文件內(nèi)類的名字
)
  1. 要使用我們自己的環(huán)境:
import gym
import myenv # 一定記得導(dǎo)入自己的環(huán)境咱士,這是很容易忽略的一點
env = gym.make('MyEnv-v0')
  1. 在PYTHONPATH中安裝myenv目錄或從父目錄啟動python。
目錄結(jié)構(gòu):
myenv/
    __init__.py
    my_hotter_colder.py
-------------------
__init__.py 文件:
-------------------
from gym.envs.registration import register
register(
    id='MyHotterColder-v0',
    entry_point='myenv.my_hotter_colder:MyHotterColder',
)
-------------------
my_hotter_colder.py文件:
-------------------
import gym
from gym import spaces
from gym.utils import seeding
import numpy as np

class MyHotterColder(gym.Env):
    """Hotter Colder
    The goal of hotter colder is to guess closer to a randomly selected number

    After each step the agent receives an observation of:
    0 - No guess yet submitted (only after reset)
    1 - Guess is lower than the target
    2 - Guess is equal to the target
    3 - Guess is higher than the target

    The rewards is calculated as:
    (min(action, self.number) + self.range) / (max(action, self.number) + self.range)

    Ideally an agent will be able to recognise the 'scent' of a higher reward and
    increase the rate in which is guesses in that direction until the reward reaches
    its maximum
    """
    def __init__(self):
        self.range = 1000  # +/- value the randomly select number can be between
        self.bounds = 2000  # Action space bounds

        self.action_space = spaces.Box(low=np.array([-self.bounds]), high=np.array([self.bounds]))
        self.observation_space = spaces.Discrete(4)

        self.number = 0
        self.guess_count = 0
        self.guess_max = 200
        self.observation = 0

        self.seed()
        self.reset()

    def seed(self, seed=None):
        self.np_random, seed = seeding.np_random(seed)
        return [seed]

    def step(self, action):
        assert self.action_space.contains(action)

        if action < self.number:
            self.observation = 1

        elif action == self.number:
            self.observation = 2

        elif action > self.number:
            self.observation = 3

        reward = ((min(action, self.number) + self.bounds) / (max(action, self.number) + self.bounds)) ** 2

        self.guess_count += 1
        done = self.guess_count >= self.guess_max

        return self.observation, reward[0], done, {"number": self.number, "guesses": self.guess_count}

    def reset(self):
        self.number = self.np_random.uniform(-self.range, self.range)
        self.guess_count = 0
        self.observation = 0
        return self.observation

參考:

  1. https://github.com/openai/gym/issues/626
  2. https://github.com/openai/gym/tree/master/gym/envs#how-to-create-new-environments-for-gym
  3. https://github.com/openai/gym/blob/522c2c532293399920743265d9bc761ed18eadb3/gym/envs/init.py
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末袖瞻,一起剝皮案震驚了整個濱河市司致,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌聋迎,老刑警劉巖脂矫,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異霉晕,居然都是意外死亡庭再,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門牺堰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來拄轻,“玉大人,你說我怎么就攤上這事伟葫『薮辏” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長斧抱。 經(jīng)常有香客問我常拓,道長,這世上最難降的妖魔是什么辉浦? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任弄抬,我火速辦了婚禮,結(jié)果婚禮上宪郊,老公的妹妹穿的比我還像新娘掂恕。我一直安慰自己,他們只是感情好弛槐,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布懊亡。 她就那樣靜靜地躺著,像睡著了一般乎串。 火紅的嫁衣襯著肌膚如雪斋配。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天灌闺,我揣著相機與錄音,去河邊找鬼坏瞄。 笑死桂对,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的鸠匀。 我是一名探鬼主播蕉斜,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼缀棍!你這毒婦竟也來了宅此?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤爬范,失蹤者是張志新(化名)和其女友劉穎父腕,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體青瀑,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡璧亮,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了斥难。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片枝嘶。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖哑诊,靈堂內(nèi)的尸體忽然破棺而出群扶,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布竞阐,位于F島的核電站缴饭,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏馁菜。R本人自食惡果不足惜茴扁,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望汪疮。 院中可真熱鬧峭火,春花似錦、人聲如沸智嚷。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽盏道。三九已至稍浆,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間猜嘱,已是汗流浹背衅枫。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留朗伶,地道東北人弦撩。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像论皆,于是被迫代替她去往敵國和親益楼。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容