【薦片】AlphaGo官方紀(jì)錄片

寫在前面：從人類發(fā)明語言之后恒界，主要的學(xué)習(xí)方式就是通過文字睦刃。但是，好的視頻十酣，尤其是紀(jì)錄片涩拙，卻能夠通過直觀的視覺际长，給我們更多的代入感。今天就先給大家推薦這一段吧兴泥。

alphago的官方紀(jì)錄片工育，帶你重溫2017年那激動人心的時刻。先簡要交代下背景：英文被稱作Go的圍棋郁轻，是誕生于中國翅娶，已經(jīng)具有三千年歷史的一項棋類運(yùn)動。和它的英文名字一樣好唯，其元素和規(guī)則非常簡單竭沫，但是變化卻非常多，被稱作最復(fù)雜的棋類項目骑篙。 DeepMind是一家位于倫敦的人工智能初創(chuàng)公司蜕提，他的創(chuàng)始人之一杰米斯·哈薩比斯，是英國青少年國際象棋冠軍靶端，他打算借助人工智能谎势，在最復(fù)雜的棋類項目上扛過機(jī)器對抗人類的大旗。自從1997年IBM的深藍(lán)擊敗國際象棋世界冠軍卡斯帕羅夫之后杨名，科技界一直試圖在更復(fù)雜的圍棋領(lǐng)域用機(jī)器挑戰(zhàn)人類脏榆，但18年過去后，棋力最高的人工智能程序才能達(dá)到業(yè)余五段的圍棋水平台谍。DeepMind決心改變這一現(xiàn)狀须喂，在2014年啟動了AlphaGo項目（DeepMind也是在這一年被Google收購），他們的信心來自于近幾年機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的飛速發(fā)展趁蕊，使得機(jī)器具有了自我學(xué)習(xí)和進(jìn)化的能力坞生，至少從表面上看AlphaGo一兩年內(nèi)下的棋局，已經(jīng)遠(yuǎn)遠(yuǎn)超過職業(yè)棋手從小到大做下的棋局總數(shù)了掷伙。

這個紀(jì)錄片主要的內(nèi)容是己，就是AlphaGo和李世石之間的”人機(jī)大戰(zhàn)“。其中的幾個細(xì)節(jié)頗有看點：

博弈

圍棋是一種博弈的游戲任柜，在這個五番棋里卒废，雙方都試圖把局面搞得很復(fù)雜，讓對方琢磨不透宙地。職業(yè)棋手會通過對方思考的時間長短以及觀察對手的反應(yīng)升熊，來驗證自己的這種戰(zhàn)術(shù)是否成功了。但是這一次绸栅，李世石的對面只是幫助落子的黃仁杰博士，每一次落子都是1-2分鐘页屠，黃博士更是面無表情粹胯，根本無法觀察對方的反應(yīng)蓖柔。圍棋在古代被稱為”手談“，可以說通過圍棋能夠?qū)崿F(xiàn)雙方的某種交流风纠，在這個五番棋的比賽中况鸣，唯一的交流就是棋譜，或者數(shù)據(jù)（對機(jī)器而言）竹观。

上帝之手

比賽中有兩手被反復(fù)提及（不劇透了）镐捧，一個由AlphaGo”創(chuàng)造“，出乎了所有人的意料臭增，但是仔細(xì)一分析懂酱，這一手將此前大家看不懂的復(fù)雜局面變得更明朗了，說明AlphaGo做了一個大局誊抛，主導(dǎo)了比賽列牺；此時的AlphaGo有48個TPU（張量處理器，機(jī)器學(xué)習(xí)專用芯片）拗窃，可以計算50步瞎领，所以布下這個局也不奇怪。另一個随夸，則由李世石創(chuàng)造九默，出乎了AlphaGo的預(yù)料，這一首被古力成為”God Move“宾毒。在賽后的復(fù)盤中驼修，程序員說這一步發(fā)生的概率是十萬分之七。而李世石在賽后發(fā)布會上說當(dāng)時只有這個地方可以下伍俘。說明邪锌，李世石也在從前三局的失敗中進(jìn)行學(xué)習(xí)，在跟AlphaGo比賽完的兩個月內(nèi)癌瘾，李世石保持全勝觅丰。

人機(jī)競合的魅力

”世紀(jì)之戰(zhàn)“改變了人工智能，也改變了圍棋這項運(yùn)動妨退。 “看起來不可能戰(zhàn)勝機(jī)器”妇萄，并沒有讓圍棋這項運(yùn)動失去魅力，卻讓這項運(yùn)動有了更高的知名度和廣泛參與度咬荷。據(jù)說冠句，在比賽結(jié)束后，圍棋的棋盤一度賣斷了貨幸乒。連李世石也表示懦底，AlphaGo的出現(xiàn)，改變了圍棋這項運(yùn)動罕扎，他（作為對手的AlphaGo）提供了很多前人沒有想過的思路聚唐，讓圍棋有了更多的可能性丐重。說實話，我不懂圍棋杆查，在看這個紀(jì)錄片之前扮惦，只在武俠小說里，聽說過珍瓏棋局亲桦，這是個圍棋術(shù)語崖蜜，指全局性的巧妙創(chuàng)作，特點在于構(gòu)思奇巧客峭。而紀(jì)錄片中的上帝之手豫领，無疑就是現(xiàn)實版的珍瓏棋局。也許桃笙，隨著機(jī)器棋手的加入氏堤，在機(jī)器和人的“同伎壓力”下，會產(chǎn)生更多的珍瓏棋局搏明。

后續(xù)故事

在圍棋人機(jī)大戰(zhàn)總戰(zhàn)勝人類鼠锈，可以說人工智能摘取了智力運(yùn)動上的“明珠”。 AlphaGo仍在不斷迭代星著，他的下一個版本AlphaMaster购笆，在網(wǎng)絡(luò)上60比0，戰(zhàn)勝了一眾專業(yè)棋手虚循；然后在烏鎮(zhèn)3：0戰(zhàn)勝了柯潔同欠，1：0在與人類團(tuán)體賽中勝出。而且與戰(zhàn)勝李世石的具有48個TPU的分布式系統(tǒng)不同横缔，這一版只用了4個TPU的單機(jī)系統(tǒng)铺遂。

然后，AlphaGo就不屑于跟人類玩了茎刚，第三代AlphaGo Zero襟锐，基于神經(jīng)網(wǎng)絡(luò)完全重新開發(fā)，絲毫不依賴人類的經(jīng)驗膛锭，只是自己跟自己下粮坞，“通過對自我的反思和獨有的創(chuàng)造力直接超越人類”。然后AplhaGo zero100：0完勝第一代AlphaGo（勝李世石版本）初狰，在跟第二代AlphaGo Master對戰(zhàn)中保持90%的勝率莫杈。

故事還沒有接觸，第四代叫做Alpha Zero（注意已經(jīng)去掉了Go）奢入，仍舊使用第三代算法筝闹，但是使用更通用的變量，可以應(yīng)用到其他的棋類項目，包括可能有平局的國家象棋（圍棋沒有平局）关顷。

但是肩杈，這絕不是DeppMind的最終目的。所有研究人工智能的公司解寝，其目標(biāo)都是研發(fā)出通用的人工智能，并能廣泛的應(yīng)用艘儒，然后反哺人工智能的算法和模型聋伦。

從DeepMind的官網(wǎng)，可以看到通過使用AlphaGo中積累的AI技術(shù)界睁，DeepMind幫助谷歌的數(shù)據(jù)中心降低了40%的能耗（谷歌這錢花的值）觉增，Google Assistant中的語音識別技術(shù)也使用了DeepMind的卷積神經(jīng)網(wǎng)絡(luò)算法。相信在谷歌強(qiáng)大的計算能力和海量數(shù)據(jù)下翻斟，DeepMind會有更好更大的發(fā)展逾礁。

PS： DeepMind這種通過在特定規(guī)則的游戲中訓(xùn)練AI，從而獲得自我學(xué)習(xí)和進(jìn)化的能力（這有點像協(xié)同過濾了）的做法访惜，也得到了很多其他公司的效仿嘹履。在圍棋領(lǐng)域，就有Facebook债热、騰訊等公司砾嫉。還有諸如電競和其他棋牌領(lǐng)域。大家有興趣可自行圍觀窒篱。

雷鋒網(wǎng)的相關(guān)視頻匯總貼焕刮，匯集了2017年AI領(lǐng)域的一些比較淺顯一定的精華，我?guī)痛蠹液喴爬ㄈ缦拢?/p>

Libratus：卡耐基梅隴大學(xué)人工智能系統(tǒng)墙杯，在20天賽程里擊敗了德州撲克的職業(yè)選手配并，德州撲克背后的不完全信息博弈，與圍棋不同的是德州撲克的每一步?jīng)Q策高镐，都是以前所有步驟的條件概率溉旋。

OpenAI：在Dota2國際競標(biāo)賽現(xiàn)場1V1擊敗世界頂級玩家，這同樣是不依賴與人類經(jīng)驗避消，完全自主學(xué)習(xí)進(jìn)化的有一個例子低滩；

DeepMind的自動化神經(jīng)網(wǎng)絡(luò)架構(gòu)：這個厲害了，聯(lián)合 CMU 提出一種結(jié)合模型結(jié)構(gòu)分層表示的高效架構(gòu)搜索方法岩喷，使用神經(jīng)網(wǎng)絡(luò)來設(shè)計神經(jīng)網(wǎng)絡(luò)恕沫，并且超過的人工設(shè)計的架構(gòu)；

地表最強(qiáng)的國際象棋選手：對纱意，就是AlphaZero婶溯，同樣通過自主學(xué)習(xí)，擊敗目前最強(qiáng)的國際象棋機(jī)器選手Stockfish（ELO分3300，比人類最高的卡爾森還高500分迄委，意味著勝率95%以上）褐筛；

當(dāng)然，少不了AI領(lǐng)域的大拿叙身，吳恩達(dá)渔扎、李飛飛、谷歌大腦團(tuán)隊以及深度學(xué)習(xí)之父Geoffrey Hinton信轿。感興趣的童鞋請移步2017AI年度視頻晃痴。