大家好绩蜻,我是小多铣墨,在南京為您帶來(lái)共享晚報(bào)第五十四期。今天我們的主題是智慧之光办绝。就給大家聊一聊這段時(shí)間非骋猎迹火的當(dāng)今世界圍棋排名第一摔寨,中國(guó)的柯潔對(duì)戰(zhàn)人工智能阿法狗尤蛮,以及,阿法狗之父浅萧,Deep Mind創(chuàng)始人哈薩比斯對(duì)于人工智能的思考降淮。
“我會(huì)抱必勝心態(tài)超埋、必死信念。我一定要擊敗阿爾法狗佳鳖!”對(duì)于5月23日至27日與圍棋人工智能程序AlphaGo(阿爾法狗)的對(duì)弈霍殴,目前世界排名第一的中國(guó)職業(yè)九段柯潔放出豪言。然而系吩,AlphaGo(阿爾法狗)之父卻說(shuō)来庭,“我們發(fā)明阿爾法狗,并不是為了贏取圍棋比賽穿挨≡鲁冢”
lphaGo之父杰米斯·哈薩比斯(Demis Hassabis)近日在母校英國(guó)劍橋大學(xué)做了一場(chǎng)題為“超越人類認(rèn)知的極限”的演講,解答了世人對(duì)于人工智能科盛,對(duì)于阿爾法狗的諸多疑問(wèn)——過(guò)去3000年里人類低估了棋局哪個(gè)區(qū)域的重要性帽衙?阿爾法狗去年贏了韓國(guó)職業(yè)九段李世石靠哪幾個(gè)絕招?今年年初拿下數(shù)位國(guó)際大師的神秘棋手Master究竟是不是阿爾法狗贞绵?為什么圍棋是人工智能難解之謎厉萝?
杰米斯·哈薩比斯,DeepMind創(chuàng)始人,AlphaGo(阿爾法狗)之父冀泻,4歲開(kāi)始下象棋常侣,8歲時(shí)在棋盤上的成功促使他開(kāi)始思考兩個(gè)至今令他困擾的問(wèn)題:第一,人腦是如何學(xué)會(huì)完成復(fù)雜任務(wù)的弹渔?第二胳施,電腦能否做到這一點(diǎn)?17歲時(shí)肢专,哈薩比斯就負(fù)責(zé)了經(jīng)典模擬游戲《主題公園》的開(kāi)發(fā)舞肆,并在1994年發(fā)布。他隨后讀完了劍橋大學(xué)計(jì)算機(jī)科學(xué)學(xué)位博杖,2005年進(jìn)入倫敦大學(xué)學(xué)院椿胯,攻讀神經(jīng)科學(xué)博士學(xué)位,希望了解真正的大腦究竟是如何工作的剃根,以此促進(jìn)人工智能的發(fā)展哩盲。2014年他創(chuàng)辦公司Deep Mind,公司產(chǎn)品阿爾法狗在2016年大戰(zhàn)圍棋冠軍李世石事件上一舉成名。
哈薩比斯在當(dāng)天的演講中透露了韓國(guó)棋手李世石去年輸給阿爾法狗的致命原因狈醉,他最后也提到了阿爾法狗即將迎戰(zhàn)的中國(guó)棋手柯潔廉油,他說(shuō),“柯潔也在網(wǎng)上和阿爾法狗對(duì)決過(guò)苗傅,比賽之后柯潔說(shuō)人類已經(jīng)研究圍棋研究了幾千年了抒线,然而人工智能卻告訴我們,我們甚至連其表皮都沒(méi)揭開(kāi)渣慕。異曲同工嘶炭,柯潔提到了圍棋的真理,我們?cè)谶@里談的是科學(xué)的真理逊桦≌A裕”
下面,給大家呈現(xiàn)哈薩比斯的演講《關(guān)于圍棋人類3000年來(lái)犯了一個(gè)錯(cuò)》:
非常感謝大家今天能夠到場(chǎng)卫袒,今天宵呛,我將談?wù)勅斯ぶ悄埽约癉eepMind近期在做些什么夕凝,我把這場(chǎng)報(bào)告命名為“超越人類認(rèn)知的極限”,我希望到了報(bào)告結(jié)束的時(shí)候户秤,大家都清晰了解我想傳達(dá)的思想码秉。
1.你真的知道什么是人工智能嗎?
對(duì)于不知道DeepMind公司的朋友鸡号,我做個(gè)簡(jiǎn)單介紹转砖,我們是在2010年于倫敦成立了這家公司,在2014年我們被谷歌收購(gòu),希望借此加快我們?nèi)斯ぶ悄芗夹g(shù)的腳步府蔗。我們的使命是什么呢晋控?我們的首要使命便是解決人工智能問(wèn)題;一旦這個(gè)問(wèn)題解決了姓赤,理論上任何問(wèn)題都可以被解決赡译。這就是我們的兩大使命了,聽(tīng)起來(lái)可能有點(diǎn)狡猾不铆,但是我們真的相信蝌焚,如果人工智能最基本的問(wèn)題都解決了的話,沒(méi)有什么問(wèn)題是困難的誓斥。
那么我們準(zhǔn)備怎樣實(shí)現(xiàn)這個(gè)目標(biāo)呢只洒?DeepMind現(xiàn)在在努力制造世界上第一臺(tái)通用學(xué)習(xí)機(jī),大體上學(xué)習(xí)可以分為兩類:一種就是直接從輸入和經(jīng)驗(yàn)中學(xué)習(xí)劳坑,沒(méi)有既定的程序或者規(guī)則可循毕谴,系統(tǒng)需要從原始數(shù)據(jù)自己進(jìn)行學(xué)習(xí);第二種學(xué)習(xí)系統(tǒng)就是通用學(xué)習(xí)系統(tǒng)距芬,指的是一種算法可以用于不同的任務(wù)和領(lǐng)域析珊,甚至是一些從未見(jiàn)過(guò)的全新領(lǐng)域。大家肯定會(huì)問(wèn)蔑穴,系統(tǒng)是怎么做到這一點(diǎn)的忠寻?
其實(shí),人腦就是一個(gè)非常明顯的例子存和,這是可能的奕剃,關(guān)鍵在于如何通過(guò)大量的數(shù)據(jù)資源,尋找到最合適的解決方式和算法捐腿。我們把這種系統(tǒng)叫做通用人工智能纵朋,來(lái)區(qū)別于如今我們當(dāng)前大部分人在用的僅在某一領(lǐng)域發(fā)揮特長(zhǎng)的狹義人工智能,這種狹義人工智能在過(guò)去的40-50年非常流行茄袖。
IBM發(fā)明的深藍(lán)系統(tǒng)(Deep Blue)就是一個(gè)很好的狹義人工智能的例子操软,他在上世紀(jì)90年代末期曾打敗了國(guó)際象棋冠軍加里·卡斯帕羅夫(Gary Kasporov)。如今宪祥,我們到了人工智能的新的轉(zhuǎn)折點(diǎn)聂薪,我們有著更加先進(jìn)、更加匹配的技術(shù)蝗羊。
2.如何讓機(jī)器聽(tīng)從人類的命令藏澳?
大家可能想問(wèn)機(jī)器是如何聽(tīng)從人類的命令的,其實(shí)并不是機(jī)器或者算法本身耀找,而是一群聰明的編程者智慧的結(jié)晶翔悠。他們與每一位國(guó)際象棋大師對(duì)話,汲取他們的經(jīng)驗(yàn),把其轉(zhuǎn)化成代碼和規(guī)則蓄愁,組建了人類最強(qiáng)的象棋大師團(tuán)隊(duì)双炕。但是這樣的系統(tǒng)僅限于象棋,不能用于其他游戲撮抓。對(duì)于新的游戲妇斤,你需要重新開(kāi)始編程。在某種程度上胀滚,這些技術(shù)仍然不夠完美趟济,并不是傳統(tǒng)意義上的完全人工智能,其中所缺失的就是普適性和學(xué)習(xí)性咽笼。我們想通過(guò)“增強(qiáng)學(xué)習(xí)”來(lái)解決這一難題顷编。在這里我解釋一下增強(qiáng)學(xué)習(xí),我相信很多人都了解這個(gè)算法剑刑。
首先媳纬,想像一下有一個(gè)主體,在AI領(lǐng)域我們稱我們的人工智能系統(tǒng)為主體施掏,它需要了解自己所處的環(huán)境钮惠,并盡力找出自己要達(dá)到的目的。這里的環(huán)境可以指真實(shí)事件七芭,可以是機(jī)器人素挽,也可以是虛擬世界,比如游戲環(huán)境狸驳;主體通過(guò)兩種方式與周圍環(huán)境接觸预明;它先通過(guò)觀察熟悉環(huán)境,我們起初通過(guò)視覺(jué)耙箍,也可以通過(guò)聽(tīng)覺(jué)撰糠、觸覺(jué)等,我們也在發(fā)展多感覺(jué)的系統(tǒng)辩昆;
第二個(gè)任務(wù)阅酪,就是在此基礎(chǔ)上,建模并找出最佳選擇汁针。這可能涉及到對(duì)未來(lái)的預(yù)期术辐,想像,以及假設(shè)檢驗(yàn)扇丛。這個(gè)主體經(jīng)常處在真實(shí)環(huán)境中术吗,當(dāng)時(shí)間節(jié)點(diǎn)到了的時(shí)候,系統(tǒng)需要輸出當(dāng)前找到的最佳方案帆精。這個(gè)方案可能或多或少會(huì)改變所處環(huán)境,從而進(jìn)一步驅(qū)動(dòng)觀察的結(jié)果,并反饋給主體卓练。
簡(jiǎn)單來(lái)說(shuō)隘蝎,這就是增強(qiáng)學(xué)習(xí)的原則,示意圖雖然簡(jiǎn)單襟企,但是其中卻涉及了極其復(fù)雜的算法和原理嘱么。如果我們能夠解決大部分問(wèn)題,我們就能夠搭建普適人工智能顽悼。這是因?yàn)閮蓚€(gè)主要原因:首先曼振,從數(shù)學(xué)角度來(lái)講,我的合伙人蔚龙,一名博士冰评,他搭建了一個(gè)系統(tǒng)叫‘AI-XI’,用這個(gè)模型木羹,他證明了在計(jì)算機(jī)硬件條件和時(shí)間無(wú)限的情況下甲雅,搭建一個(gè)普適人工智能,需要的信息坑填。另外抛人,從生物角度來(lái)講,動(dòng)物和人類等脐瑰,人類的大腦是多巴胺控制的妖枚,它在執(zhí)行增強(qiáng)學(xué)習(xí)的行為。因此苍在,不論是從數(shù)學(xué)的角度绝页,還是生物的角度,增強(qiáng)學(xué)習(xí)是一個(gè)有效的解決人工智能問(wèn)題的工具忌穿。
3.為什么圍棋是人工智能難解之謎抒寂?
接下來(lái),我要主要講講我們最近的技術(shù)掠剑,那就是去年誕生的阿爾法狗屈芜;希望在座的大家了解這個(gè)游戲,并嘗試玩玩朴译,這是個(gè)非常棒的游戲井佑。圍棋使用方形格狀棋盤及黑白二色圓形棋子進(jìn)行對(duì)弈,棋盤上有縱橫各19條直線將棋盤分成361個(gè)交叉點(diǎn)眠寿,棋子走在交叉點(diǎn)上躬翁,雙方交替行棋,以圍地多者為勝盯拱。圍棋規(guī)則沒(méi)有多復(fù)雜盒发,我可以在五分鐘之內(nèi)教給大家例嘱。這張圖展示的就是一局已結(jié)束,整個(gè)棋盤基本布滿棋子宁舰,然后數(shù)一下你的棋子圈出的空間以及對(duì)方棋子圈出的空間拼卵,誰(shuí)的空間大,誰(shuí)就獲勝蛮艰。在圖示的這場(chǎng)勢(shì)均力敵的比賽中腋腮,白棋一格之差險(xiǎn)勝。
其實(shí)壤蚜,了解這個(gè)游戲的最終目的非常難即寡,因?yàn)樗⒉幌裣笃迥菢樱兄苯用鞔_的目標(biāo)袜刷,在圍棋里聪富,完全是憑直覺(jué)的,甚至連如何決定游戲結(jié)束對(duì)于初學(xué)者來(lái)說(shuō)水泉,都很難善涨。圍棋是個(gè)歷史悠久的游戲,有著3000多年的歷史草则,起源于中國(guó)钢拧,在亞洲,圍棋有著很深的文化意義炕横≡茨冢孔子還曾指出,圍棋是每一個(gè)真正的學(xué)者都應(yīng)該掌握的四大技能之一(琴棋書(shū)畫(huà))份殿,所以在亞洲圍棋是種藝術(shù)膜钓,專家們都會(huì)玩。
如今卿嘲,這個(gè)游戲更加流行颂斜,有4000萬(wàn)人在玩圍棋,超過(guò)2000多個(gè)頂級(jí)專家拾枣,如果你在4-5歲的時(shí)候就展示了圍棋的天賦沃疮,這些小孩將會(huì)被選中,并進(jìn)入特殊的專業(yè)圍棋學(xué)校梅肤,在那里司蔬,學(xué)生從6歲起,每天花12個(gè)小時(shí)學(xué)習(xí)圍棋姨蝴,一周七天俊啼,天天如此。直到你成為這個(gè)領(lǐng)域的專家左医,才可以離開(kāi)學(xué)校畢業(yè)授帕。這些專家基本是投入人生全部的精力同木,去揣摩學(xué)習(xí)掌握這門技巧,我認(rèn)為圍棋也許是最優(yōu)雅的一種游戲了豪墅。
像我說(shuō)的那樣泉手,這個(gè)游戲只有兩個(gè)非常簡(jiǎn)單的規(guī)則黔寇,而其復(fù)雜性卻是難以想象的偶器,一共有10170(10的170次方)種可能性,這個(gè)數(shù)字比整個(gè)宇宙中的原子數(shù)1080(10的80次方)都多的去了缝裤,是沒(méi)有辦法窮舉出圍棋所有的可能結(jié)果的屏轰。我們需要一種更加聰明的方法。你也許會(huì)問(wèn)為什么計(jì)算機(jī)進(jìn)行圍棋的游戲會(huì)如此困難憋飞,1997年,IBM的人工智能DeepBlue(深藍(lán))打敗了當(dāng)時(shí)的象棋世界冠軍GarryKasparov霎苗,圍棋一直是人工智能領(lǐng)域的難解之謎。我們能否做出一個(gè)算法來(lái)與世界圍棋冠軍競(jìng)爭(zhēng)呢榛做?要做到這一點(diǎn)唁盏,有兩個(gè)大的挑戰(zhàn):
一、搜索空間龐大(分支因數(shù)就有200)检眯,一個(gè)很好的例子厘擂,就是在圍棋中,平均每一個(gè)棋子有兩百個(gè)可能的位置锰瘸,而象棋僅僅是20.圍棋的分支因數(shù)遠(yuǎn)大于象棋刽严;
二、比這個(gè)更難的是避凝,幾乎沒(méi)有一個(gè)合適的評(píng)價(jià)函數(shù)來(lái)定義誰(shuí)是贏家舞萄,贏了多少;這個(gè)評(píng)價(jià)函數(shù)對(duì)于該系統(tǒng)是至關(guān)重要的管削。而對(duì)于象棋來(lái)說(shuō)倒脓,寫(xiě)一個(gè)評(píng)價(jià)函數(shù)是非常簡(jiǎn)單的,因?yàn)橄笃宀粌H是個(gè)相對(duì)簡(jiǎn)單的游戲含思,而且是實(shí)體的崎弃,只用數(shù)一下雙方的棋子,就能輕而易舉得出結(jié)論了茸俭。你也可以通過(guò)其他指標(biāo)來(lái)評(píng)價(jià)象棋吊履,比如棋子移動(dòng)性等。
所有的這些在圍棋里都是不可能的调鬓,并不是所有的部分都一樣艇炎,甚至一個(gè)小小部分的變動(dòng),會(huì)完全變化格局腾窝,所以每一個(gè)小的棋子都對(duì)棋局有著至關(guān)重要的影響缀踪。最難的部分是居砖,我稱象棋為毀滅性的游戲,游戲開(kāi)始的時(shí)候驴娃,所有的棋子都在棋盤上了奏候,隨著游戲的進(jìn)行,棋子被對(duì)方吃掉唇敞,棋子數(shù)目不斷減少蔗草,游戲也變得越來(lái)越簡(jiǎn)單。相反疆柔,圍棋是個(gè)建設(shè)性的游戲咒精,開(kāi)始的時(shí)候,棋盤是空的旷档,慢慢的下棋雙方把棋盤填滿模叙。
因此,如果你準(zhǔn)備在中場(chǎng)判斷一下當(dāng)前形勢(shì)鞋屈,在象棋里范咨,你只需看現(xiàn)在的棋盤,就能告訴你大致情況厂庇;在圍棋里渠啊,你必須評(píng)估未來(lái)可能會(huì)發(fā)生什么,才能評(píng)估當(dāng)前局勢(shì)宋列,所以相比較而言昭抒,圍棋難得多。也有很多人試著將DeepBlue的技術(shù)應(yīng)用在圍棋上炼杖,但是結(jié)果并不理想灭返,這些技術(shù)連一個(gè)專業(yè)的圍棋手都打不贏,更別說(shuō)世界冠軍了坤邪。
所以大家就要問(wèn)了熙含,連電腦操作起來(lái)都這么難,人類是怎樣解決這個(gè)問(wèn)題的艇纺?其實(shí)怎静,人類是靠直覺(jué)的,而圍棋一開(kāi)始就是一個(gè)靠直覺(jué)而非計(jì)算的游戲黔衡。所以蚓聘,如果你問(wèn)一個(gè)象棋選手,為什么這步這樣走盟劫,他會(huì)告訴你夜牡,這樣走完之后,下一步和下下一步會(huì)怎樣走侣签,就可以達(dá)到什么樣的目的塘装。這樣的計(jì)劃急迂,有時(shí)候也許不盡如人意,但是起碼選手是有原因的蹦肴。
然而圍棋就不同了僚碎,如果你去問(wèn)世界級(jí)的大師,為什么走這一步阴幌,他們經(jīng)成撞回答你直覺(jué)告訴他這么走,這是真的裂七,他們是沒(méi)法描述其中的原因的皆看。我們通過(guò)用加強(qiáng)學(xué)習(xí)的方式來(lái)提高人工神經(jīng)網(wǎng)絡(luò)算法,希望能夠解決這一問(wèn)題背零。我們?cè)噲D通過(guò)深度神經(jīng)網(wǎng)絡(luò)模仿人類的這種直覺(jué)行為,在這里无埃,需要訓(xùn)練兩個(gè)神經(jīng)網(wǎng)絡(luò)徙瓶,一種是決策網(wǎng)絡(luò),我們從網(wǎng)上下載了成百萬(wàn)的業(yè)余圍棋游戲嫉称,通過(guò)監(jiān)督學(xué)習(xí)侦镇,我們讓阿爾法狗模擬人類下圍棋的行為;我們從棋盤上任意選擇一個(gè)落子點(diǎn)织阅,訓(xùn)練系統(tǒng)去預(yù)測(cè)下一步人類將作出的決定壳繁;系統(tǒng)的輸入是在那個(gè)特殊位置最有可能發(fā)生的前五或者前十的位置移動(dòng);這樣荔棉,你只需看那5-10種可能性闹炉,而不用分析所有的200種可能性了。
一旦我們有了這個(gè)润樱,我們對(duì)系統(tǒng)進(jìn)行幾百萬(wàn)次的訓(xùn)練渣触,通過(guò)誤差加強(qiáng)學(xué)習(xí),對(duì)于贏了的情況壹若,讓系統(tǒng)意識(shí)到嗅钻,下次出現(xiàn)類似的情形時(shí),更有可能做相似的決定店展。相反养篓,如果系統(tǒng)輸了,那么下次再出現(xiàn)類似的情況赂蕴,就不會(huì)選擇這種走法柳弄。我們建立了自己的游戲數(shù)據(jù)庫(kù),通過(guò)百萬(wàn)次的游戲睡腿,對(duì)系統(tǒng)進(jìn)行訓(xùn)練语御,得到第二種神經(jīng)網(wǎng)絡(luò)峻贮。選擇不同的落子點(diǎn),經(jīng)過(guò)置信區(qū)間進(jìn)行學(xué)習(xí)应闯,選出能夠贏的情況纤控,這個(gè)幾率介于0-1之間,0是根本不可能贏碉纺,1是百分之百贏船万。
通過(guò)把這兩個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)合起來(lái)(決策網(wǎng)絡(luò)和數(shù)值網(wǎng)絡(luò)),我們可以大致預(yù)估出當(dāng)前的情況骨田。這兩個(gè)神經(jīng)網(wǎng)絡(luò)樹(shù)耿导,通過(guò)蒙特卡洛算法,把這種本來(lái)不能解決的問(wèn)題态贤,變得可以解決舱呻。我們網(wǎng)羅了大部分的圍棋下法,然后和歐洲的圍棋冠軍比賽悠汽,結(jié)果是阿爾法狗贏了箱吕,那是我們的第一次突破,而且相關(guān)算法還被發(fā)表在《自然》科學(xué)雜志柿冲。
接下來(lái)茬高,我們?cè)陧n國(guó)設(shè)立了100萬(wàn)美元的獎(jiǎng)金,并在2016年3月假抄,與世界圍棋冠軍李世石進(jìn)行了對(duì)決怎栽。李世石先生是圍棋界的傳奇,在過(guò)去的10年里都被認(rèn)為是最頂級(jí)的圍棋專家宿饱。我們與他進(jìn)行對(duì)決,發(fā)現(xiàn)他有非常多創(chuàng)新的玩法刑棵,有的時(shí)候阿爾法狗很難掌控。比賽開(kāi)始之前蛉签,世界上每個(gè)人(包括他本人在內(nèi))都認(rèn)為他一定會(huì)很輕松就打贏這五場(chǎng)比賽,但實(shí)際結(jié)果是我們的阿爾法狗以4:1獲勝碍舍。圍棋專家和人工智能領(lǐng)域的專家都稱這具有劃時(shí)代的意義。對(duì)于業(yè)界人員來(lái)說(shuō)妈经,之前根本沒(méi)想到。
4.棋局哪個(gè)關(guān)鍵區(qū)域被人類忽視了吹泡?
這對(duì)于我們來(lái)說(shuō)也是一生僅有一次的偶然事件骤星。這場(chǎng)比賽,全世界28億人在關(guān)注爆哑,35000多篇關(guān)于此的報(bào)道洞难。整個(gè)韓國(guó)那一周都在圍繞這個(gè)話題。真是一件非常美妙的事情揭朝。對(duì)于我們而言队贱,重要的不是阿爾法狗贏了這個(gè)比賽,而是了解分析他是如何贏的潭袱,這個(gè)系統(tǒng)有多強(qiáng)的創(chuàng)新能力柱嫌。阿爾法狗不僅僅只是模仿其他人類選手的下法,他在不斷創(chuàng)新屯换。在這里舉個(gè)例子编丘,這是第二局里的一個(gè)情況,第37步趟径,這一步是我整個(gè)比賽中最喜歡的一步瘪吏。在這里,黑棋代表阿爾法狗蜗巧,他將棋子落在了圖中三角標(biāo)出的位置。為什么這步這么關(guān)鍵呢?為什么大家都被震驚到了蕾盯。
圖左:第二局里幕屹,第37步,黑棋的落子位置圖右:之前貌似陷入困境的兩個(gè)棋子级遭。
其實(shí)在圍棋中有兩條至關(guān)重要的分界線望拖,從右數(shù)第三根線挫鸽。如果在第三根線上移動(dòng)棋子说敏,意味著你將占領(lǐng)這個(gè)線右邊的領(lǐng)域。而如果是在第四根線上落子丢郊,意味著你想向棋盤中部進(jìn)軍盔沫,潛在的,未來(lái)你會(huì)占棋盤上其他部分的領(lǐng)域枫匾,可能和你在第三根線上得到的領(lǐng)域相當(dāng)架诞。
所以在過(guò)去的3000多年里谴忧,人們認(rèn)為在第三根線上落子和第四根線上落子有著相同的重要性沾谓。但是在這場(chǎng)游戲中均驶,大家看到在這第37步中辣恋,阿爾法狗落子在了第五條線,進(jìn)軍棋局的中部區(qū)域饮潦。與第四根線相比继蜡,這根線離中部區(qū)域更近稀并。這可能意味著碘举,在幾千年里引颈,人們低估了棋局中部區(qū)域的重要性境蜕。
有趣的是粱年,圍棋就是一門藝術(shù)台诗,是一種客觀的藝術(shù)拉庶。我們坐在這里的每一個(gè)人氏仗,都可能因?yàn)樾那楹脡漠a(chǎn)生成千上百種的新想法夺鲜,但并不意味著每一種想法都是好的币励。而阿爾法狗卻是客觀的食呻,他的目標(biāo)就是贏得游戲仅胞。
5.阿爾法狗拿下李世石靠哪幾個(gè)絕招干旧?
大家看到在當(dāng)前的棋局下椎眯,左下角那兩個(gè)用三角標(biāo)出的棋子看起來(lái)好像陷入了困難编整,而15步之后掌测,這兩個(gè)棋子的力量擴(kuò)散到了棋局中心赏半,一直延續(xù)到棋盤的右邊淆两,使得這第37步恰恰落在這里秋冰,成為一個(gè)獲勝的決定性因素剑勾。在這一步上阿爾法狗非常具有創(chuàng)新性虽另。我本人是一個(gè)很業(yè)余的棋手捂刺,讓我們看看一位世界級(jí)專家Michael Redmond對(duì)這一步的評(píng)價(jià)森缠。Michael是一位9段選手(圍棋最高段)仪缸,就像是功夫中的黑段一樣恰画,他說(shuō):“這是非常令人震驚的一步拴还,就像是一個(gè)錯(cuò)誤的決定自沧∧聪幔”在實(shí)際模擬中孝偎,Michael其實(shí)一開(kāi)始把棋子放在了另外一個(gè)地方,根本沒(méi)想到阿爾法狗會(huì)走這一步寺旺。像這樣的創(chuàng)新阻塑,在這個(gè)比賽中陈莽,阿爾法狗還有許多走搁。在這里私植,我特別感謝李世石先生曲稼,其實(shí)在我們贏了前三局的時(shí)候,他下去了者春。
那是三場(chǎng)非常艱難的比賽钱烟,尤其是第一場(chǎng)拴袭。因?yàn)槲覀冃枰粩嘤?xùn)練我們的算法拥刻,阿爾法狗之前打贏了歐洲冠軍般哼,經(jīng)過(guò)這場(chǎng)比賽蒸眠,我們知道了歐洲冠軍和世界冠軍的差別楞卡。理論上來(lái)講脾歇,我們的系統(tǒng)也進(jìn)步了藕各。但是當(dāng)你訓(xùn)練這個(gè)系統(tǒng)的時(shí)候,我們不知道有多少是過(guò)度擬合的,因此豌研,在第一局比賽結(jié)束之前某残,系統(tǒng)是不知道自己的統(tǒng)計(jì)結(jié)果的成黄。所以奋岁,其實(shí)第一局闻伶,我們非常緊張,因?yàn)槿绻谝痪州斄斯馊疲苡锌赡芪覀兊乃惴ù嬖诰薮舐┒吹剩锌赡軙?huì)連輸五局爆雹。但是如果我們第一局贏了钙态,證明我們的加權(quán)系統(tǒng)是對(duì)的驯绎。
不過(guò),李世石先生在第四場(chǎng)的時(shí)候屈尼,回來(lái)了脾歧,也許壓力緩解了許多鞭执,他做出了一步非常創(chuàng)新性的舉動(dòng)兄纺,我認(rèn)為這是歷史上的創(chuàng)新之舉估脆。這一步迷惑了阿爾法狗座云,使他的決策樹(shù)進(jìn)行了錯(cuò)誤估計(jì),一些中國(guó)的專家甚至稱之為“黃金之舉”厌衔。通過(guò)這個(gè)例子富寿,我們可以看到多少的哲理蘊(yùn)含于圍棋中祟同。這些頂級(jí)專家晕城,用盡必生的精力砖顷,去找出這種黃金之舉。其實(shí)豌熄,在這步里锣险,阿爾法狗知道這是非常不尋常的一步芯肤,他當(dāng)時(shí)估計(jì)李世石通過(guò)這步贏的可能性是0.007%崖咨,阿爾法狗之前沒(méi)有見(jiàn)過(guò)這樣的落子方式击蹲,在那2分鐘里歌豺,他需要重新搜索決策計(jì)算世曾。我剛剛已經(jīng)提到過(guò)這個(gè)游戲的影響:28億人觀看轮听,35000相關(guān)文章的媒體報(bào)道血巍,在西方網(wǎng)售的圍棋被一搶而空述寡,我聽(tīng)說(shuō)MIT(美國(guó)麻省理工學(xué)院)還有其他很多高校叶洞,許多人新加入了圍棋社螟炫。
我剛才談到了直覺(jué)和創(chuàng)新艺晴,直覺(jué)是一種含蓄的表達(dá)然评,它是基于人類的經(jīng)歷和本能的一種思維形式碗淌,不需要精確計(jì)算抖锥。這一決策的準(zhǔn)確性可以通過(guò)行為進(jìn)行評(píng)判缕探。在圍棋里很簡(jiǎn)單爹耗,我們給系統(tǒng)輸入棋子的位置潭兽,來(lái)評(píng)估其重要性山卦。阿爾法狗就是在模擬人類這種直覺(jué)行為账蓉。創(chuàng)新,我認(rèn)為就是在已有知識(shí)和經(jīng)驗(yàn)的基礎(chǔ)上肮雨,產(chǎn)生一種原始的怨规,創(chuàng)新的觀點(diǎn)。阿爾法狗很明顯的示范了這兩種能力舶得。
6.神秘棋手Master究竟是不是阿爾法狗?
那么我們今天的主題是“超越人類認(rèn)知的極限”媚赖,下一步應(yīng)該是什么呢?從去年三月以來(lái)磨隘,我們一直在不斷完善和改進(jìn)阿爾法狗番捂,大家肯定會(huì)問(wèn)设预,既然我們已經(jīng)是世界冠軍了鳖枕,還有什么可完善的宾符?其實(shí),我們認(rèn)為阿爾法狗還不是完美的,還需要做更多的研究稀蟋。
首先,我們想要繼續(xù)研究剛才提到的和李世石的第四局的比賽,來(lái)填充知識(shí)的空白绎谦;這個(gè)問(wèn)題其實(shí)已經(jīng)被解決了窃肠,我們建立了一個(gè)新的阿爾法狗分系統(tǒng)包个,不同于主系統(tǒng),這個(gè)分支系統(tǒng)是用來(lái)困惑主系統(tǒng)的冤留。我們也優(yōu)化了系統(tǒng)的行為碧囊,以前我們需要花至少3個(gè)月來(lái)訓(xùn)練系統(tǒng),現(xiàn)在只需要一周時(shí)間纤怒。
第二糯而,我們需要理解阿爾法狗所采取的決定,并對(duì)其進(jìn)行解釋泊窘;阿爾法狗這樣做的原因是什么熄驼,是否符合人類的想法等等烘豹;我們通過(guò)對(duì)比人類大腦對(duì)于不同落子位置的反應(yīng)以及阿爾法狗對(duì)于棋子位置的反應(yīng)祭芦,以期找到一些新的知識(shí);本質(zhì)上就是想讓系統(tǒng)更專業(yè)。我們?cè)诰W(wǎng)絡(luò)上與世界頂級(jí)的專家對(duì)決避矢,一開(kāi)始我們使用了一個(gè)假名(Master)砂沛,在連勝之后被大家猜出是阿爾法狗。這些都是頂級(jí)的專家,我們至今已贏了60位大師了。如果你做個(gè)簡(jiǎn)單的貝葉斯分析,你會(huì)發(fā)現(xiàn)阿爾法狗贏不同對(duì)手的難易也不一樣。而且认境,阿爾法狗也在不斷自我創(chuàng)新佳遂,比如說(shuō)圖中右下角這個(gè)棋子(圓圈標(biāo)處)拧抖,落在第二根線里,以往我們并不認(rèn)為這是個(gè)有效的位置。實(shí)際上缴啡,韓國(guó)有的團(tuán)隊(duì)預(yù)約了這些游戲攒钳,想研究其中新的意義和信息焕檬。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 阿爾法狗自我創(chuàng)新,落在第二格線的棋子蕉鸳。
柯潔勉失,既是中國(guó)的圍棋冠軍,也是目前的世界圍棋冠軍,他才19歲。他也在網(wǎng)上和阿爾法狗對(duì)決過(guò)砌烁,比賽之后他說(shuō)人類已經(jīng)研究圍棋研究了幾千年了,然而人工智能卻告訴我們撇寞,我們甚至連其表皮都沒(méi)揭開(kāi)晶框。他也說(shuō)人類和人工智能的聯(lián)合將會(huì)開(kāi)創(chuàng)一個(gè)新紀(jì)元,將共同發(fā)現(xiàn)圍棋的真諦蔫骂。異曲同工追迟,柯潔提到了圍棋的真理契沫,我們?cè)谶@里談的是科學(xué)的真理娄周。
那么圍棋的新紀(jì)元是否真的到來(lái)了呢泻轰?圍棋史上這樣的劃時(shí)代事件曾經(jīng)發(fā)生過(guò)兩次屉符,第一次是發(fā)生在1600年左右的日本东涡,20世紀(jì)30-40年代的日本贿条,日本一位當(dāng)時(shí)非常杰出的圍棋高手吳清源提出了一個(gè)全新的關(guān)于圍棋的理論凡蚜,將圍棋提升到了一個(gè)全新的境界奈附。大家說(shuō)如今,阿爾法狗帶來(lái)的是圍棋界的第三次變革议蟆。
7.為什么人工智能“下圍棋”強(qiáng)于“下象棋”路狮?
我想解釋一下,為什么人工智能在圍棋界所作出的貢獻(xiàn)树枫,要遠(yuǎn)大于象棋界。如果我們看看當(dāng)今的世界國(guó)際象棋冠軍芒努斯·卡爾森体谒,他其實(shí)和之前的世界冠軍沒(méi)什么大的區(qū)別,他們都很優(yōu)秀,都很聰明。但為什么當(dāng)人工智能出現(xiàn)的時(shí)候,他們可以遠(yuǎn)遠(yuǎn)超越人類妨托?我認(rèn)為其中的原因是缸榛,國(guó)際象棋更注重戰(zhàn)術(shù),而阿爾法狗更注重戰(zhàn)略兰伤。如今世界頂級(jí)的國(guó)際象棋程序再不會(huì)犯技術(shù)性的錯(cuò)誤内颗,而在人類身上,不可能不犯錯(cuò)敦腔。
第二均澳,國(guó)際象棋有著巨大的數(shù)據(jù)庫(kù),如果棋盤上少于9個(gè)棋子的時(shí)候符衔,通過(guò)數(shù)學(xué)算法就可以計(jì)算出誰(shuí)勝誰(shuí)敗了找前。計(jì)算機(jī)通過(guò)成千上萬(wàn)的迭代算法,就可以計(jì)算出來(lái)了判族。因此躺盛,當(dāng)棋盤上少于九個(gè)棋子的時(shí)候,下象棋時(shí)人類是沒(méi)有辦法獲勝的形帮。
因此槽惫,國(guó)際象棋的算法已經(jīng)近乎極致,我們沒(méi)有辦法再去提高它辩撑。然而圍棋里的阿爾法狗界斜,在不斷創(chuàng)造新的想法,這些全新的想法合冀,在和真人對(duì)決的時(shí)候各薇,頂級(jí)的棋手也可以把其納入到考慮的范疇,不斷提高自己君躺。
就如歐洲圍棋冠軍樊麾(第一位與阿爾法狗對(duì)陣的人類職業(yè)棋手)所說(shuō)的那樣峭判,在和阿爾法狗對(duì)決的過(guò)程中,機(jī)器人不斷創(chuàng)新的下法晰洒,也讓人類不斷跳出自己的思維局限朝抖,不斷提高自己啥箭。大家都知道谍珊,經(jīng)過(guò)專業(yè)圍棋學(xué)校里30多年的磨練,他們的很多思維已經(jīng)固化,機(jī)器人的創(chuàng)新想法能為其帶來(lái)意想不到的靈感砌滞。我真的相信如果人類和機(jī)器人結(jié)合在一起侮邀,能創(chuàng)造出許多不可思議的事情。我們的天性和真正的潛力會(huì)被真正釋放出來(lái)贝润。
8.阿爾法狗不為了贏取比賽又是為了什么绊茧?
就像是天文學(xué)家利用哈勃望遠(yuǎn)鏡觀察宇宙一樣,利用阿爾法狗打掘,圍棋專家可以去探索他們的未知世界华畏,探索圍棋世界的奧秘。我們發(fā)明阿爾法狗尊蚁,并不是為了贏取圍棋比賽亡笑,我們是想為測(cè)試我們自己的人工智能算法搭建一個(gè)有效的平臺(tái),我們的最終目的是把這些算法應(yīng)用到真實(shí)的世界中横朋,為社會(huì)所服務(wù)仑乌。
當(dāng)今世界面臨的一個(gè)巨大挑戰(zhàn)就是過(guò)量的信息和復(fù)雜的系統(tǒng),我們?cè)趺床拍苷业狡渲械囊?guī)律和結(jié)構(gòu)琴锭,從疾病到氣候晰甚,我們需要解決不同領(lǐng)域的問(wèn)題。這些領(lǐng)域十分復(fù)雜决帖,對(duì)于這些問(wèn)題厕九,即使是最聰明的人類也無(wú)法解決的。
我認(rèn)為人工智能是解決這些問(wèn)題的一個(gè)潛在方式古瓤。在如今這個(gè)充斥著各種新技術(shù)的時(shí)代止剖,人工智能必須在人類道德基準(zhǔn)范圍內(nèi)被開(kāi)發(fā)和利用。本來(lái)落君,技術(shù)是中性的穿香,但是我們使用它的目的和使用它的范圍,大大決定了其功能和性質(zhì)绎速,這必須是一個(gè)讓人人受益的技術(shù)才行皮获。
我自己的理想是通過(guò)自己的努力,讓人工智能科學(xué)家或者人工智能助理和醫(yī)藥助理成為可能纹冤,通過(guò)該技術(shù)洒宝,我們可以真正加速技術(shù)的更新和進(jìn)步。
想起了愛(ài)因斯坦的一句話萌京,世界是好的還是壞的雁歌,也許是這個(gè)世界上最為重要的科學(xué)問(wèn)題?
現(xiàn)在知残,人類正在見(jiàn)證靠瞎!
鳴謝:尊重知識(shí)產(chǎn)權(quán)。感謝英國(guó)劍橋大學(xué)神經(jīng)學(xué)劉秀云博士辛勤的編譯工作,感謝澎湃新聞網(wǎng)的編輯整理呈現(xiàn)乏盐。