最近Google收購的DeepMind的AlphaGo向韓國李世石九段發(fā)起了挑戰(zhàn)笼裳,看了各方比賽的視頻昔驱,談點感受摹恰。
1.AlphaGo與李世石比賽是否公平奋构?
資源上:AlphaGo輸入了歷史上相當(dāng)多的高手對決的棋譜,并且自己下棋對弈進(jìn)行強(qiáng)化學(xué)習(xí)晌该,資源上AlphaGo占據(jù)了絕對優(yōu)勢肥荔。
學(xué)習(xí)成本上:AlphaGo學(xué)習(xí)的進(jìn)度相對于人類的學(xué)習(xí)進(jìn)度,是指數(shù)級的差別朝群⊙喙ⅲ可能機(jī)器兩個月下的棋局就會相當(dāng)于一個高手一輩子的總棋局?jǐn)?shù)。當(dāng)相對來說可以忽略時間的時候姜胖,成長的進(jìn)度AlphaGo完虐李世石誉帅。機(jī)器一旦開始進(jìn)化,人類趕上的機(jī)會就微乎其微了。
溝通代價上:AlphaGo內(nèi)部有Policy Network和Value Network蚜锨,有全局觀和當(dāng)前下哪步棋的更優(yōu)搜索解档插。如果打破資源上的不公平,讓很多人類頂尖高手對局AlphaGo亚再,溝通的成本有多大郭膛?在讀秒階段能應(yīng)承得來么?而AlphaGo只需要加CPU氛悬,內(nèi)存则剃,優(yōu)化進(jìn)程就可以了。
2.AlphaGo的局限在哪里如捅?
AlphaGo基于大量數(shù)據(jù)的決策棍现,是完全不懂下棋而又能下贏人類的,學(xué)習(xí)方式是前所未有的镜遣,人類也很難學(xué)會的己肮,但有個致命的弱點,AlphaGo只能學(xué)會已有的技能悲关,這次是圍棋谎僻,下次是星際爭霸……并沒有Original Learning的能力,這個技能學(xué)習(xí)模式注定了它只能在人類已知的認(rèn)知范圍內(nèi)爭霸坚洽,并不會突破人類認(rèn)知的盲區(qū)戈稿,沒有人類的情感西土,發(fā)明創(chuàng)造能力讶舰。