打不贏的ai小怪獸

2013年 倫敦的deepmind 發(fā)了一篇workshop paper:
Playing Atari with Deep Reinforcement Learning
當(dāng)時(shí)真是“天空一聲巨響老子閃亮登場(chǎng)”,看完這篇paper和同事都驚呆了匆瓜,雖然思路上并沒有特別奇特的點(diǎn),但是就這么一個(gè)理論上應(yīng)該可以實(shí)現(xiàn),真正實(shí)現(xiàn)的時(shí)候,大家還是在感嘆, 這樣這樣也行.

2014年 deepmind 被google收購(gòu)了华匾,有人說$400+m, 有人說$600+m. 在這個(gè)錢比什么都便宜的時(shí)代鳞尔,這個(gè)價(jià)錢也沒什么稀奇。近幾年的cs research里面蟆融,英國(guó)一直在主流之外,但現(xiàn)在 deepmind 以完全不同于主流進(jìn)化路線的方式野蠻生長(zhǎng)著守呜。(想起大洋洲上獨(dú)立的進(jìn)化)型酥。包括之后出的neural turing machine,讓人覺得他們所在進(jìn)行的項(xiàng)目或許是超越這個(gè)時(shí)代的查乒,或者才是正確的方向弥喉。

回到游戲ai,有人說dota風(fēng)靡全球不可缺少的因素就是因?yàn)橛衋i地圖玛迄。不知道這是不是真相由境,但我現(xiàn)在還記得大學(xué)宿舍里12點(diǎn)斷電后,黑暗里摸著鍵盤在ai地圖里練補(bǔ)刀。

defending mid

無(wú)論是warcraft還是starcraft虏杰,游戲的核心其實(shí)就是傷害判定和范圍判定讥蟆,因?yàn)榉秶卸ǎ叛苌俗呶坏膯栴}纺阔。ai 的關(guān)鍵就是決定什么時(shí)候追逐什么時(shí)候逃跑瘸彤,什么時(shí)候觸發(fā)攻擊,觸發(fā)什么樣的攻擊笛钝。傳統(tǒng)的 ai 一般是有限狀態(tài)機(jī)质况,根據(jù)玩家出的兵種,生產(chǎn)對(duì)應(yīng)的兵種玻靡;根據(jù)對(duì)方兵力的強(qiáng)弱结榄,決定是打架還是逃跑;dota里面根據(jù)自己的血量囤捻,離塔的遠(yuǎn)近臼朗,決定追敵人還是跑回家。就是因?yàn)檫@個(gè)實(shí)現(xiàn)蝎土,所以經(jīng)常有半血ai追殘血英雄到塔下卻半路跑回家视哑,要是人類玩家估計(jì)就咬咬牙上了。

但是像dota這樣動(dòng)輒接近100個(gè)英雄瘟则,寫起這種狀態(tài)機(jī),應(yīng)該會(huì)是一個(gè)噩夢(mèng)枝秤〈着。看了眼 google code 上開源的 dota ai, 不知道這個(gè)是不是網(wǎng)上流傳的 ai 地圖。覺得他們嘗試的artificial neural network 的思路淀弹,才是應(yīng)該努力的方向丹壕。deepmind 的reinforcement learning就是在這個(gè)方向上更近了一步。當(dāng)然deepmind所實(shí)現(xiàn)的ai離即時(shí)戰(zhàn)略ai的距離還很遙遠(yuǎn)薇溃,論文針對(duì)的是好多年前的atari 游戲菌赖,是黑白機(jī)時(shí)代的游戲,小蜜蜂沐序,潛艇等琉用。

相比于現(xiàn)有游戲的各種ai,這篇 paper 才是第一個(gè)真正意義上的游戲ai策幼。這篇paper讓一個(gè)ai不停地通過 reinforcement learning 自我學(xué)習(xí)邑时,直接以屏幕上的像素作為ai的輸入,通過游戲里積分的反饋來教育ai特姐,最后讓ai學(xué)會(huì)玩這個(gè)游戲晶丘。玩游戲的過程和人類玩家是一致的,整個(gè)游戲?qū)τ赼i來講是一個(gè)黑盒子。ai和人類一樣浅浮,只能看到屏幕上的內(nèi)容沫浆,直接把屏幕上的像素傳給ai。

dota2的ai滚秩,其實(shí)是人工定義各種狀態(tài)的专执,多少血,追逐還是逃跑叔遂,都是手動(dòng)定義的他炊。而deep mind的這篇paper是自動(dòng)學(xué)習(xí)的,ai甚至連哪個(gè)操作是向左已艰,哪個(gè)操作是向右都不知道痊末。ai的學(xué)習(xí)完全依賴于每一次操作之后,屏幕上發(fā)生的變化哩掺。

這篇paper最后達(dá)到的結(jié)果是凿叠,這個(gè)ai測(cè)試了 7個(gè) atari 游戲,在其中的6個(gè)超過了以前的ai performance嚼吞,而且在其中三個(gè)游戲的測(cè)試中超過了人類專業(yè)玩家的水平盒件。其中和人類玩家的比較,是讓專業(yè)玩家連續(xù)玩2小時(shí)舱禽,取平均成績(jī)炒刁。

deep mind reinforcement learning demo
視頻里有剛開始的運(yùn)行結(jié)果,訓(xùn)練一小時(shí)以后的結(jié)果誊稚,最終的運(yùn)行結(jié)果翔始。

另外之所以講這是真正意義的游戲ai,是因?yàn)檫@篇paper用一個(gè)model處理了所有7個(gè)游戲里伯,并不是傳統(tǒng)地為每一個(gè)游戲做一個(gè)單獨(dú)的model.

這篇文章的成功同時(shí)也說明了一個(gè)人類水平的ai有多困難城瞎。atari 游戲的操作都非常簡(jiǎn)單,只有上下左右 以及一個(gè)額外的觸發(fā)鍵疾瓮,任何一個(gè)即時(shí)戰(zhàn)略游戲都不會(huì)這么簡(jiǎn)單脖镀。但是如果不討論這種廣義上的ai,其實(shí)狹義上的游戲機(jī)器人并沒有那么難狼电。Mario AI Championship 2012 以前有一個(gè)mario ai championship比賽蜒灰,youtube上有很多render比賽結(jié)果的視頻。人力搬運(yùn)了幾個(gè)回來肩碟。

video: [Infinite Mario AI - Long Level](http://v.youku.com/v_show/id_XOTE4ODQ1OTI4.html)

還有一個(gè)跟著鼠標(biāo)跑的卷员,操作更加浮夸。
Infinite Mario AI- Mario follows Mouse

這個(gè)比賽里腾务,一開始大家也是用特別fancy的Bayesian去做毕骡,做到后來有人發(fā)現(xiàn)因?yàn)榭梢灾苯咏佑|到mario內(nèi)部的狀態(tài),所以 a* path search 也能跑得很好,然后Bayesian也做不過 a* , 每年的冠軍好像都是通過 a* path search 實(shí)現(xiàn)的. 一旦這個(gè) ai problem 不valid了未巫,主辦的人也放棄了這個(gè)比賽窿撬。

還有berkeley的overmind項(xiàng)目,Berkeley Overmind 是星際的ai叙凡,作者好像是星際高玩劈伴,認(rèn)為蟲族飛龍是這里面最實(shí)惠地兵種,單純暴飛龍握爷,1024線甩飛龍跛璧,然后一路過關(guān)斬將最后奪冠。隱約記得之后還有一篇文章介紹關(guān)于甩飛龍的微操作是怎么實(shí)現(xiàn)的新啼,好像是用了一個(gè)特別詭異的數(shù)學(xué)模型追城。

你以為你以為的就是你以為的

結(jié)尾想起robotics里的一個(gè)小故事,做機(jī)器人的教授特別羨慕小狗的撿球能力燥撞,就想做一個(gè)能撿球的機(jī)器人座柱,覺得不和人比 和狗比還是有信心的。于是開發(fā)了各種拋物線模型物舒,牛逼空氣動(dòng)力色洞,研究拋球的姿勢(shì),最后冠胯。火诸。。荠察。置蜀。還是撿不過小狗。小狗撿球完全不用這些高大上的數(shù)學(xué)割粮,只要保持45度仰望球盾碗,球就會(huì)自然而然的進(jìn)入嘴里媚污。度數(shù)小于45度了舀瓢,就跑遠(yuǎn)一些,度數(shù)大了耗美,就跑近一些京髓。

萬(wàn)一奧特曼打不贏小怪獸
那就扶他逃回到小小星球
有陽(yáng)光 有鮮花 什么都有
也不缺女粉絲溫柔包扎傷口
不久后神功練就 小怪獸捏在指縫

reference:

  1. A History of Dota
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市商架,隨后出現(xiàn)的幾起案子堰怨,更是在濱河造成了極大的恐慌,老刑警劉巖蛇摸,帶你破解...
    沈念sama閱讀 211,817評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件备图,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)揽涮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,329評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門抠藕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人蒋困,你說我怎么就攤上這事盾似。” “怎么了雪标?”我有些...
    開封第一講書人閱讀 157,354評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵零院,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我村刨,道長(zhǎng)告抄,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,498評(píng)論 1 284
  • 正文 為了忘掉前任烹困,我火速辦了婚禮玄妈,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘髓梅。我一直安慰自己拟蜻,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,600評(píng)論 6 386
  • 文/花漫 我一把揭開白布枯饿。 她就那樣靜靜地躺著酝锅,像睡著了一般。 火紅的嫁衣襯著肌膚如雪奢方。 梳的紋絲不亂的頭發(fā)上搔扁,一...
    開封第一講書人閱讀 49,829評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音蟋字,去河邊找鬼稿蹲。 笑死,一個(gè)胖子當(dāng)著我的面吹牛鹊奖,可吹牛的內(nèi)容都是我干的苛聘。 我是一名探鬼主播,決...
    沈念sama閱讀 38,979評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼忠聚,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼设哗!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起两蟀,我...
    開封第一講書人閱讀 37,722評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤网梢,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后赂毯,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體战虏,經(jīng)...
    沈念sama閱讀 44,189評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡拣宰,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,519評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了烦感。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片徐裸。...
    茶點(diǎn)故事閱讀 38,654評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖啸盏,靈堂內(nèi)的尸體忽然破棺而出重贺,到底是詐尸還是另有隱情,我是刑警寧澤回懦,帶...
    沈念sama閱讀 34,329評(píng)論 4 330
  • 正文 年R本政府宣布气笙,位于F島的核電站,受9級(jí)特大地震影響怯晕,放射性物質(zhì)發(fā)生泄漏潜圃。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,940評(píng)論 3 313
  • 文/蒙蒙 一舟茶、第九天 我趴在偏房一處隱蔽的房頂上張望谭期。 院中可真熱鬧,春花似錦吧凉、人聲如沸隧出。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,762評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)胀瞪。三九已至,卻和暖如春饲鄙,著一層夾襖步出監(jiān)牢的瞬間凄诞,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,993評(píng)論 1 266
  • 我被黑心中介騙來泰國(guó)打工忍级, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留帆谍,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,382評(píng)論 2 360
  • 正文 我出身青樓轴咱,卻偏偏與公主長(zhǎng)得像汛蝙,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子嗦玖,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,543評(píng)論 2 349

推薦閱讀更多精彩內(nèi)容