“阿爾法狗”(AlphaGo)是第一個擊敗人類職業(yè)圍棋選手敢伸、第一個戰(zhàn)勝圍棋世界冠軍的人工智能,由DeepMind公司開發(fā)(該公司已被谷歌Google買下)喳魏。
2016年3月棉浸,AlphaGo和圍棋世界冠軍、職業(yè)九段棋手李世石進行圍棋人機大戰(zhàn)刺彩,以4比1的總比分獲勝迷郑;2017年5月,在中國烏鎮(zhèn)圍棋峰會上迂苛,它與排名世界第一的世界圍棋冠軍柯潔對戰(zhàn)三热,以3比0的總比分獲勝鼓择。
AlphaGo棋力已經超過人類職業(yè)圍棋頂尖水平三幻,成為圍棋界不爭的事實。2017年5月27日呐能,在柯潔與阿爾法圍棋的人機大戰(zhàn)之后念搬,AlphaGo團隊宣布AlphaGo將不再參加圍棋比賽。
2017年10月19日摆出,在《自然》(Nature)上發(fā)表的一篇研究論文中朗徊,Deepmind公司報告新版程序AlphaGo Zero:從空白狀態(tài)學起,在無任何人類輸入的條件下偎漫,它能夠用4個TPU(谷歌專門為加速深層神經網(wǎng)絡運算能力而研發(fā)的一款芯片爷恳,ASIC集成電路)迅速自學圍棋,“拋棄人類經驗”象踊。自我訓練3天温亲,自我對弈棋局490萬盤棚壁,訓練后它以100:0的戰(zhàn)績擊敗前輩AlphoGo Lee。
沒有已知的“棋譜”輸入栈虚,只告訴 AlphaGo 最基本的圍棋規(guī)則:黑先白后袖外、輪換出子、提子魂务、如何判斷輸贏曼验、貼目等……
明確規(guī)則后讓 AlphaGo 自己跟自己下,開始對弈粘姜,3天鬓照,自我對弈棋局490萬盤,然后出山即封神孤紧。
除了證明了基于策略網(wǎng)絡(Policy network)和價值網(wǎng)絡(Value network)的深度學習人工智能有多厲害颖杏,AlphaGo Zero還體現(xiàn)了一個高效的學習法則:在基礎原理(第一性原理)之上,基于反饋機制的刻意練習坛芽。
為了簡化這個問題留储,我們下來看看2017年AlphaGo紀錄片開頭的一小段——人工智能打方塊(Breakout)。
練習100盤結束后咙轩,AI對于球拍的控制依然十分呆板获讳,系統(tǒng)也不知道什么時候應該向哪里移動,經常漏掉球活喊。
當它自我練習了300局之后——它的操作速度已經幾乎跟人類的操作反應一樣丐膝,操作也順暢了許多。
500局之后钾菊,AI找到了效率最高的打法帅矗,它先在兩邊打開一個缺口,把球彈到頂部煞烫,讓球在頂部區(qū)域不斷的彈彈彈……
這種方式浑此,效率最高、移動次數(shù)最少滞详。沒有人教過他這種打法凛俱,我們只輸入了規(guī)則,以及一套底層反饋機制料饥,通過幾百次的訓練蒲犬,AI最后就能夠建立了一套最優(yōu)策略。
這種基于策略的不斷反饋岸啡、持續(xù)優(yōu)化的深度學習能力不僅比我們更“會學習”原叮,AI還比我們更勤奮——高效且勤奮。
雖然我們窮極一生也不能像AI一樣訓練幾百萬次,但是奋隶!找到正確的方法論沛慢,刻意練習,及時反饋达布,我們也能成為一個更厲害的人团甲!