寫在前面:從人類發(fā)明語言之后恒界,主要的學(xué)習(xí)方式就是通過文字睦刃。但是,好的視頻十酣,尤其是紀(jì)錄片涩拙,卻能夠通過直觀的視覺际长,給我們更多的代入感。今天就先給大家推薦這一段吧兴泥。
alphago的官方紀(jì)錄片工育,帶你重溫2017年那激動人心的時刻。 先簡要交代下背景: 英文被稱作Go的圍棋郁轻,是誕生于中國翅娶,已經(jīng)具有三千年歷史的一項棋類運(yùn)動。和它的英文名字一樣好唯,其元素和規(guī)則非常簡單竭沫,但是變化卻非常多,被稱作最復(fù)雜的棋類項目骑篙。 DeepMind是一家位于倫敦的人工智能初創(chuàng)公司蜕提,他的創(chuàng)始人之一杰米斯·哈薩比斯,是英國青少年國際象棋冠軍靶端,他打算借助人工智能谎势,在最復(fù)雜的棋類項目上扛過機(jī)器對抗人類的大旗。 自從1997年IBM的深藍(lán)擊敗國際象棋世界冠軍卡斯帕羅夫之后杨名,科技界一直試圖在更復(fù)雜的圍棋領(lǐng)域用機(jī)器挑戰(zhàn)人類脏榆,但18年過去后,棋力最高的人工智能程序才能達(dá)到業(yè)余五段的圍棋水平台谍。DeepMind決心改變這一現(xiàn)狀须喂,在2014年啟動了AlphaGo項目(DeepMind也是在這一年被Google收購),他們的信心來自于近幾年機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的飛速發(fā)展趁蕊,使得機(jī)器具有了自我學(xué)習(xí)和進(jìn)化的能力坞生,至少從表面上看AlphaGo一兩年內(nèi)下的棋局,已經(jīng)遠(yuǎn)遠(yuǎn)超過職業(yè)棋手從小到大做下的棋局總數(shù)了掷伙。
這個紀(jì)錄片主要的內(nèi)容是己,就是AlphaGo和李世石之間的”人機(jī)大戰(zhàn)“。其中的幾個細(xì)節(jié)頗有看點:
博弈
圍棋是一種博弈的游戲任柜,在這個五番棋里卒废,雙方都試圖把局面搞得很復(fù)雜,讓對方琢磨不透宙地。職業(yè)棋手會通過對方思考的時間長短以及觀察對手的反應(yīng)升熊,來驗證自己的這種戰(zhàn)術(shù)是否成功了。但是這一次绸栅,李世石的對面只是幫助落子的黃仁杰博士,每一次落子都是1-2分鐘页屠,黃博士更是面無表情粹胯,根本無法觀察對方的反應(yīng)蓖柔。 圍棋在古代被稱為”手談“,可以說通過圍棋能夠?qū)崿F(xiàn)雙方的某種交流风纠,在這個五番棋的比賽中况鸣,唯一的交流就是棋譜,或者數(shù)據(jù)(對機(jī)器而言)竹观。
上帝之手
比賽中有兩手被反復(fù)提及(不劇透了)镐捧,一個由AlphaGo”創(chuàng)造“,出乎了所有人的意料臭增,但是仔細(xì)一分析懂酱,這一手將此前大家看不懂的復(fù)雜局面變得更明朗了,說明AlphaGo做了一個大局誊抛,主導(dǎo)了比賽列牺;此時的AlphaGo有48個TPU(張量處理器,機(jī)器學(xué)習(xí)專用芯片)拗窃,可以計算50步瞎领,所以布下這個局也不奇怪。 另一個随夸,則由李世石創(chuàng)造九默,出乎了AlphaGo的預(yù)料,這一首被古力成為”God Move“宾毒。在賽后的復(fù)盤中驼修,程序員說這一步發(fā)生的概率是十萬分之七。而李世石在賽后發(fā)布會上說當(dāng)時只有這個地方可以下伍俘。說明邪锌,李世石也在從前三局的失敗中進(jìn)行學(xué)習(xí),在跟AlphaGo比賽完的兩個月內(nèi)癌瘾,李世石保持全勝觅丰。
人機(jī)競合的魅力
”世紀(jì)之戰(zhàn)“改變了人工智能,也改變了圍棋這項運(yùn)動妨退。 “看起來不可能戰(zhàn)勝機(jī)器”妇萄,并沒有讓圍棋這項運(yùn)動失去魅力,卻讓這項運(yùn)動有了更高的知名度和廣泛參與度咬荷。據(jù)說冠句,在比賽結(jié)束后,圍棋的棋盤一度賣斷了貨幸乒。連李世石也表示懦底,AlphaGo的出現(xiàn),改變了圍棋這項運(yùn)動罕扎,他(作為對手的AlphaGo)提供了很多前人沒有想過的思路聚唐,讓圍棋有了更多的可能性丐重。說實話,我不懂圍棋杆查,在看這個紀(jì)錄片之前扮惦,只在武俠小說里,聽說過珍瓏棋局亲桦,這是個圍棋術(shù)語崖蜜,指全局性的巧妙創(chuàng)作,特點在于構(gòu)思奇巧客峭。而紀(jì)錄片中的上帝之手豫领,無疑就是現(xiàn)實版的珍瓏棋局。也許桃笙,隨著機(jī)器棋手的加入氏堤,在機(jī)器和人的“同伎壓力”下,會產(chǎn)生更多的珍瓏棋局搏明。
后續(xù)故事
在圍棋人機(jī)大戰(zhàn)總戰(zhàn)勝人類鼠锈,可以說人工智能摘取了智力運(yùn)動上的“明珠”。 AlphaGo仍在不斷迭代星著,他的下一個版本AlphaMaster购笆,在網(wǎng)絡(luò)上60比0,戰(zhàn)勝了一眾專業(yè)棋手虚循;然后在烏鎮(zhèn)3:0戰(zhàn)勝了柯潔同欠,1:0在與人類團(tuán)體賽中勝出。而且與戰(zhàn)勝李世石的具有48個TPU的分布式系統(tǒng)不同横缔,這一版只用了4個TPU的單機(jī)系統(tǒng)铺遂。
然后,AlphaGo就不屑于跟人類玩了茎刚,第三代AlphaGo Zero襟锐,基于神經(jīng)網(wǎng)絡(luò)完全重新開發(fā),絲毫不依賴人類的經(jīng)驗膛锭,只是自己跟自己下粮坞,“通過對自我的反思和獨有的創(chuàng)造力直接超越人類”。然后AplhaGo zero100:0完勝第一代AlphaGo(勝李世石版本)初狰,在跟第二代AlphaGo Master對戰(zhàn)中保持90%的勝率莫杈。
故事還沒有接觸,第四代叫做Alpha Zero(注意已經(jīng)去掉了Go)奢入,仍舊使用第三代算法筝闹,但是使用更通用的變量,可以應(yīng)用到其他的棋類項目,包括可能有平局的國家象棋(圍棋沒有平局)关顷。
但是肩杈,這絕不是DeppMind的最終目的。所有研究人工智能的公司解寝,其目標(biāo)都是研發(fā)出通用的人工智能,并能廣泛的應(yīng)用艘儒,然后反哺人工智能的算法和模型聋伦。
從DeepMind的官網(wǎng),可以看到通過使用AlphaGo中積累的AI技術(shù)界睁,DeepMind幫助谷歌的數(shù)據(jù)中心降低了40%的能耗(谷歌這錢花的值)觉增,Google Assistant中的語音識別技術(shù)也使用了DeepMind的卷積神經(jīng)網(wǎng)絡(luò)算法。相信在谷歌強(qiáng)大的計算能力和海量數(shù)據(jù)下翻斟,DeepMind會有更好更大的發(fā)展逾礁。
PS: DeepMind這種通過在特定規(guī)則的游戲中訓(xùn)練AI,從而獲得自我學(xué)習(xí)和進(jìn)化的能力(這有點像協(xié)同過濾了)的做法访惜,也得到了很多其他公司的效仿嘹履。在圍棋領(lǐng)域,就有Facebook债热、騰訊等公司砾嫉。還有諸如電競和其他棋牌領(lǐng)域。大家有興趣可自行圍觀窒篱。
雷鋒網(wǎng)的相關(guān)視頻匯總貼焕刮,匯集了2017年AI領(lǐng)域的一些比較淺顯一定的精華,我?guī)痛蠹液喴爬ㄈ缦拢?/p>
Libratus:卡耐基梅隴大學(xué)人工智能系統(tǒng)墙杯,在20天賽程里擊敗了德州撲克的職業(yè)選手配并,德州撲克背后的不完全信息博弈,與圍棋不同的是德州撲克的每一步?jīng)Q策高镐,都是以前所有步驟的條件概率溉旋。
OpenAI:在Dota2國際競標(biāo)賽現(xiàn)場1V1擊敗世界頂級玩家,這同樣是不依賴與人類經(jīng)驗避消,完全自主學(xué)習(xí)進(jìn)化的有一個例子低滩;
DeepMind的自動化神經(jīng)網(wǎng)絡(luò)架構(gòu):這個厲害了,聯(lián)合 CMU 提出一種結(jié)合模型結(jié)構(gòu)分層表示的高效架構(gòu)搜索方法岩喷,使用神經(jīng)網(wǎng)絡(luò)來設(shè)計神經(jīng)網(wǎng)絡(luò)恕沫,并且超過的人工設(shè)計的架構(gòu);
地表最強(qiáng)的國際象棋選手:對纱意,就是AlphaZero婶溯,同樣通過自主學(xué)習(xí),擊敗目前最強(qiáng)的國際象棋機(jī)器選手Stockfish(ELO分3300,比人類最高的卡爾森還高500分迄委,意味著勝率95%以上)褐筛;
當(dāng)然,少不了AI領(lǐng)域的大拿叙身,吳恩達(dá)渔扎、李飛飛、谷歌大腦團(tuán)隊以及深度學(xué)習(xí)之父Geoffrey Hinton信轿。 感興趣的童鞋請移步2017AI年度視頻晃痴。