要玩轉(zhuǎn)這個(gè)星際爭霸II開源AI成玫,你只需要i5+GTX1050

姓名:劉暢 學(xué)號:15020199045

轉(zhuǎn)自:https://zhuanlan.zhihu.com/p/50980092

【嵌牛導(dǎo)讀】:來自 University of Tartu 的 Roman Ring 開源了首個(gè)星際爭霸 2 的智能體項(xiàng)目,我們也可以在這個(gè)前沿領(lǐng)域里展開自己的研究了磕道。

【嵌牛鼻子】:星際爭霸2膀哲,強(qiáng)化學(xué)習(xí) , 開源

【嵌牛提問】:你會打星際爭霸2嗎?

Reaver 是一個(gè)模塊化的深度強(qiáng)化學(xué)習(xí)框架陌粹,可提供比大多數(shù)開源解決方案更快的單機(jī)并行化能力撒犀,支持星際爭霸 2、OpenAI Gym、Atari或舞、MuJoCo 等常見環(huán)境荆姆,其網(wǎng)絡(luò)被定義為簡單的 Keras 模型,易于配置和共享設(shè)置映凳。在示例中胆筒,Reaver 在不到 10 秒鐘內(nèi)通過了 CartPole-v0 游戲,在 4 核 CPU 筆記本上每秒采樣率為 5000 左右诈豌。

Reaver 可以在 30 分鐘內(nèi)攻克星際爭霸 2 的 MoveToBeacon 小游戲仆救,和 DeepMind 得到的結(jié)果相當(dāng),僅使用了配置 Intel i5-7300HQ CPU (4 核) 和 GTX 1050 GPU 的筆記本矫渔,你也可以在 Google Colab 上在線跑跑對比一下彤蔽。

項(xiàng)目鏈接:https://github.com/inoryy/reaver-pysc2

Reaver 的 Google Colab 地址:https://colab.research.google.com/drive/1DvyCUdymqgjk85FB5DrTtAwTFbI494x7

具體來說,Reaver 具備以下特征:

性能:現(xiàn)有研究的多數(shù)強(qiáng)化學(xué)習(xí)基線通常針對進(jìn)程之間基于消息的通信(如 MPI)進(jìn)行調(diào)整庙洼。這對于 DeepMind顿痪、OpenAI 等擁有大規(guī)模分布式 RL 設(shè)置的公司來說是有意義的,但對于只擁有一個(gè)計(jì)算機(jī)/HPC 節(jié)點(diǎn)的研究人員或發(fā)燒友來說油够,這似乎是一個(gè)很大的瓶頸员魏。因此,Reaver 采用了共享內(nèi)存叠聋,與之前基于消息的并行化的項(xiàng)目相比撕阎,速度提升了 2 倍。具體來說碌补,Reaver 通過 lock-free 的方式利用共享內(nèi)存虏束,可以專門針對這種情況優(yōu)化。這種方法可以在星際爭霸 II 采樣率上速度提升了 2 倍(在一般情況下可以實(shí)現(xiàn) 100 倍的加速)厦章,其最主要的瓶頸在于 GPU 的輸入/輸出管道镇匀。

模塊化:許多 RL 基線或多或少都是模塊化的,但經(jīng)常緊緊地與作者使用的模型/環(huán)境耦合袜啃。以我個(gè)人經(jīng)驗(yàn)來看汗侵,當(dāng)我只專注于星際爭霸 2 游戲時(shí),每一次實(shí)驗(yàn)或調(diào)試都是一個(gè)令人沮喪的長期過程群发。而有了 Reaver 之后晰韵,我就能夠在一行代碼中交換環(huán)境(即使是從 SC2 到雅達(dá)利或 CartPole)。對于模型來說也是如此——任何 Keras 模型都可以熟妓,只要它遵守基本 API 契約(inputs = agent obs, outputs = logits + value)雪猪。Reaver 的三個(gè)核心模塊 envs、models起愈、 和 agents 基本上是完全獨(dú)立的只恨。這保證了在一個(gè)模塊上的功能擴(kuò)展可以無縫地連接到其它模塊上译仗。

可配置性:現(xiàn)有的智能體通常具有幾十個(gè)不同的配置參數(shù),共享這些參數(shù)似乎讓每一個(gè)參與其中的人都很頭疼官觅。我最近偶然發(fā)現(xiàn)了這個(gè)問題的一個(gè)有趣的解決方案——gin-config纵菌,它支持將任意 Python 可調(diào)用函數(shù)配置為類似 Python 的配置文件和命令行參數(shù)。試驗(yàn)后發(fā)現(xiàn) gin-config 可以實(shí)現(xiàn)僅用一個(gè)文件共享全部訓(xùn)練流程環(huán)境配置休涤。所有的配置都能輕松地以.gin 文件的形式進(jìn)行分享咱圆,包括所有超參數(shù)、環(huán)境變量和模塊定義滑绒。

不過時(shí):DL 中充滿變數(shù),即使只有一年歷史的代碼庫也會過時(shí)隘膘。我使用即將面世的 TensorFlow 2.0 API 寫 Reaver(大多使用 tf.keras疑故,避開 tf.contrib),希望 Reaver 不會遭此厄運(yùn)弯菊。

Reaver 的用途并不局限于星際爭霸 II 智能體的深度強(qiáng)化學(xué)習(xí)訓(xùn)練纵势,如果有任何擴(kuò)展的想法歡迎分享給我。我計(jì)劃近期添加 VizDoom 環(huán)境到這個(gè)項(xiàng)目中去管钳。

python -m reaver.run --env MoveToBeacon --agent a2c --envs 4 2> stderr.log

只需通過一行代碼钦铁,Reaver 就可以直接配置一個(gè)訓(xùn)練任務(wù),如上所示才漆。Reaver 的獎(jiǎng)勵(lì)函數(shù)可以很快收斂到大約 25-26RMe(mean episode rewards)牛曹,這和 DeepMind 在該環(huán)境(MoveToBeacon)中得到的結(jié)果相當(dāng)。具體的訓(xùn)練時(shí)間取決于你自己的硬件醇滥。以下日志數(shù)據(jù)是通過配置了 Intel i5-7300HQ CPU (4 核) 和 GTX 1050 GPU 的筆記本訓(xùn)練了 30 分鐘得到的黎比。


基準(zhǔn)評測分?jǐn)?shù)

其中:

Human Expert 是由 DeepMind 從戰(zhàn)網(wǎng)天梯的大師級玩家中收集的數(shù)據(jù)

DeepMind ReDRL 是當(dāng)前業(yè)內(nèi)最佳結(jié)果,出自 DeepMind 2018 年 6 月的論文《Relational Deep Reinforcement Learning

DeepMind SC2LE 成績出自 DeepMind 和暴雪 2017 年 8 月的論文《StarCraft II: A New Challenge for Reinforcement Learning》

Reaver(A2C)是通過訓(xùn)練 reaver.agents.A2C 智能體獲得的結(jié)果鸳玩,其在硬件上盡可能復(fù)制 SC2LE 的架構(gòu)阅虫。通過訓(xùn)練智能體 --test 模組 100 個(gè)迭代,計(jì)算總獎(jiǎng)勵(lì)值不跟,收集結(jié)果颓帝。表中列出的是平均值、標(biāo)準(zhǔn)差(在括號中)窝革,以及最小&最大值(在方括號中)购城。

訓(xùn)練細(xì)節(jié),注意這些訓(xùn)練時(shí)間都是在配置了 Intel i5-7300HQ CPU (4 核) 和 GTX 1050 GPU 的筆記本上得到的虐译。我并沒有花費(fèi)太多時(shí)間來調(diào)超參數(shù)工猜,而是先展示其可學(xué)習(xí)性,但至少在 MoveToBeacon 環(huán)境中菱蔬,我已經(jīng)顯著地降低了訓(xùn)練樣本數(shù)篷帅。

不同環(huán)境下的 RMe 學(xué)習(xí)曲線和標(biāo)準(zhǔn)差史侣。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市魏身,隨后出現(xiàn)的幾起案子惊橱,更是在濱河造成了極大的恐慌,老刑警劉巖箭昵,帶你破解...
    沈念sama閱讀 206,214評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件税朴,死亡現(xiàn)場離奇詭異,居然都是意外死亡家制,警方通過查閱死者的電腦和手機(jī)正林,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來颤殴,“玉大人觅廓,你說我怎么就攤上這事『” “怎么了杈绸?”我有些...
    開封第一講書人閱讀 152,543評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長矮瘟。 經(jīng)常有香客問我瞳脓,道長,這世上最難降的妖魔是什么澈侠? 我笑而不...
    開封第一講書人閱讀 55,221評論 1 279
  • 正文 為了忘掉前任劫侧,我火速辦了婚禮,結(jié)果婚禮上哨啃,老公的妹妹穿的比我還像新娘板辽。我一直安慰自己,他們只是感情好棘催,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,224評論 5 371
  • 文/花漫 我一把揭開白布劲弦。 她就那樣靜靜地躺著,像睡著了一般醇坝。 火紅的嫁衣襯著肌膚如雪邑跪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,007評論 1 284
  • 那天呼猪,我揣著相機(jī)與錄音画畅,去河邊找鬼。 笑死宋距,一個(gè)胖子當(dāng)著我的面吹牛轴踱,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播谚赎,決...
    沈念sama閱讀 38,313評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼淫僻,長吁一口氣:“原來是場噩夢啊……” “哼诱篷!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起雳灵,我...
    開封第一講書人閱讀 36,956評論 0 259
  • 序言:老撾萬榮一對情侶失蹤棕所,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后悯辙,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體琳省,經(jīng)...
    沈念sama閱讀 43,441評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,925評論 2 323
  • 正文 我和宋清朗相戀三年躲撰,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了针贬。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,018評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡拢蛋,死狀恐怖桦他,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情瓤狐,我是刑警寧澤瞬铸,帶...
    沈念sama閱讀 33,685評論 4 322
  • 正文 年R本政府宣布批幌,位于F島的核電站础锐,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏荧缘。R本人自食惡果不足惜皆警,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,234評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望截粗。 院中可真熱鬧信姓,春花似錦、人聲如沸绸罗。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽珊蟀。三九已至菊值,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間育灸,已是汗流浹背腻窒。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留磅崭,地道東北人儿子。 一個(gè)月前我還...
    沈念sama閱讀 45,467評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像砸喻,于是被迫代替她去往敵國和親柔逼。 傳聞我的和親對象是個(gè)殘疾皇子蒋譬,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,762評論 2 345

推薦閱讀更多精彩內(nèi)容