算法比數(shù)據(jù)和計算更重要魄宏，AlphaGo Zero自學(xué)3天100:0完爆舊狗

??譯者｜核子可樂

編輯｜Vincent

AI前線出品｜ID：ai-front? ?原文鏈接：http://t.cn/ROkzAzb

時至今日悉罕，人工智能研究已經(jīng)在從語音識別到圖像分類笼平，再到基因組學(xué)乃至藥物發(fā)現(xiàn)等各個領(lǐng)域取得快速發(fā)展。而其中大多數(shù)場景原本都是需要投入大量人力資源與數(shù)據(jù)的專業(yè)系統(tǒng)陨仅。

然而津滞，對于一部分特定問題，利用人類知識加以解決則往往成本過高——包括不夠可靠或者根本無法承擔(dān)如此龐大的工作量等掂名。因此，AI 研究的長期目標(biāo)在于繞過人為階段哟沫，而是創(chuàng)造算法饺蔑，最終在無需人類介入的前提下立足各類挑戰(zhàn)性領(lǐng)域?qū)崿F(xiàn)超越人類的成效表現(xiàn)。在最近發(fā)表于《自然》雜志的論文當(dāng)中嗜诀，DeepMind 展現(xiàn)了邁向這一目標(biāo)的重要一步猾警。

從零開始

這篇論文介紹了 AlphaGo Zero，即 AlphaGo 的最新發(fā)展成果隆敢、亦是第一款能夠在圍棋這種古老的中國競技項目當(dāng)中擊敗世界冠軍的計算機程序发皿。Zero 則更為強大，可以說是有史以來最卓越的圍棋棋手拂蝎。

AlphaGo 之前的各個版本最初由數(shù)千名業(yè)余及專業(yè)圍棋棋手進(jìn)行訓(xùn)練穴墅，借以學(xué)習(xí)圍棋的規(guī)則與技巧。AlphaGo Zero 則路過了這一步温自，其能夠從完全隨機的對弈開始自行學(xué)習(xí)規(guī)則玄货。在這樣的前提之下，Zero 很快即超過了人類的棋藝水平悼泌，并以 100 比 0 的成績迅速擊敗上一代“世界冠軍”AlphaGo松捉。

其之所以能夠取得如此優(yōu)秀的成績，是因為 AlphaGo Zero 利用一種全新強化學(xué)習(xí)形式實現(xiàn)“自為自師”馆里。該系統(tǒng)最初只是一套完全不了解圍棋游戲規(guī)則的神經(jīng)網(wǎng)絡(luò)隘世。在此之后可柿，通過將該神經(jīng)網(wǎng)絡(luò)與強大的搜索算法相結(jié)合，即可進(jìn)行自我對戰(zhàn)丙者。在對弈過程當(dāng)中复斥，該神經(jīng)網(wǎng)絡(luò)經(jīng)歷高速與更新，從而預(yù)測接下來的最佳行動并最終在游戲中勝出蔓钟。

這套經(jīng)過更新的神經(jīng)網(wǎng)絡(luò)隨后與搜索算法進(jìn)行重組永票，借以創(chuàng)建新的、更為強大的 AlphaGo Zero 版本滥沫，這一過程將周而復(fù)始不斷進(jìn)行侣集。在每一次迭代當(dāng)中，系統(tǒng)成效都將迎來小幅提升兰绣，并使得 AlphaGo Zero 變得棋力愈盛世分、神經(jīng)網(wǎng)絡(luò)本身也越來越精確。

這項技術(shù)之所以比原本的 AlphaGo 更為強大缀辩，是因為其不再受限于人類的知識水平臭埋。相反，其能夠像一張白紙般從世界上最強的棋手——AlphaGo——身上學(xué)習(xí)技巧臀玄。

另外瓢阴，Zero 與初版 AlphaGo 相比還擁有以下不同之處。? AlphaGo Zero 僅使用圍棋棋盤上的黑白棋子作為輸入信息健无，而 AlphaGo 的以往版本仍包含少量手動設(shè)計功能荣恐。

? 其僅采用單一神經(jīng)網(wǎng)絡(luò)，而非像初版 AlphaGo 那樣使用兩套累贤。AlphaGo 的各早期版本利用一套“策略網(wǎng)絡(luò)”選擇下一步行動叠穆，另外配合一套“價值網(wǎng)絡(luò)”以預(yù)測各個點位對游戲結(jié)果的影響。二者在 AlphaGo Zero 當(dāng)中并合而為一臼膏，使其能夠更為高效地實現(xiàn)訓(xùn)練與評估硼被。

? AlphaGo Zero 并不使用“推演”——即常見于其它圍棋程序當(dāng)中，根據(jù)現(xiàn)有盤面局勢進(jìn)行結(jié)果預(yù)測的快速隨機對弈流程渗磅。相反嚷硫，其依賴于高質(zhì)量神經(jīng)網(wǎng)絡(luò)以評估當(dāng)前盤面形勢。

上述差異的存在有助于提升系統(tǒng)成效并令其具備更為理想的通用能力始鱼。而在另一方面论巍，算法的改變也令系統(tǒng)本身更為強大且高效。

隨著硬件性能的提升以及近期算法的持續(xù)改進(jìn)风响，AlphaGo 的效率正在不斷突破新高嘉汰。

僅僅在三天的自我對弈之后，AlphaGo Zero 就已經(jīng)以 100 比 0 的結(jié)果強勢擊敗了此前發(fā)布的 AlphaGo 版本——而后者曾經(jīng)擊敗 18 項世界冠軍頭銜擁有者李世石状勤。經(jīng)過 40 天的自我訓(xùn)練之后鞋怀，AlphaGo Zero 變得更為強大双泪，且全面碾壓此前曾擊敗全球最強棋手柯杰的 AlphaGo“Master”版本。

Elo 評分——一項用于衡量競爭性游戲（例如圍棋）中選手相對技能水平的指標(biāo)密似，其結(jié)果顯示出 AlphaGo 在發(fā)展過程當(dāng)中如何逐步走向強大焙矛。

在數(shù)百萬場 AlphaGo 對 AlphaGo 的比賽當(dāng)中，這套系統(tǒng)從零開始逐步掌握了圍棋技巧残腌，并在短短數(shù)天時間中積累到了數(shù)千年孕育而來的人類知識村斟。AlphaGo Zero 亦從中發(fā)現(xiàn)更多新適度，制定出更多非常規(guī)型策略以及創(chuàng)新下法抛猫，這進(jìn)一步反映甚至超越了此前 AlphaGo 在對陣?yán)钍朗c柯杰時所發(fā)揮出的水平蟆盹。

這些創(chuàng)造性的時刻讓我們相信，人工智能終將為人類帶來更為強大的創(chuàng)造力闺金，從而幫助我們解決人類所面臨的一系列最為重要的挑戰(zhàn)逾滥。

發(fā)現(xiàn)新知識

盡管尚處于早期發(fā)展階段，但 AlphaGo Zero 已經(jīng)成為邁向這一目標(biāo)的關(guān)鍵性一步败匹。如果能夠?qū)㈩愃频募夹g(shù)應(yīng)用于其它結(jié)構(gòu)化問題當(dāng)中——例如蛋白質(zhì)折疊寨昙、能源消耗控制或者發(fā)現(xiàn)革命性新材料等等，那么這些突破無疑將對整個人類社會產(chǎn)生積極的推動作用掀亩。

論文鏈接

www.nature.com/articles/na…

原文鏈接

deepmind.com/blog/alphag…

－全文完－

AI前線提供最新最全AI領(lǐng)域技術(shù)資訊舔哪、一線業(yè)界實踐案例、搜羅整理業(yè)界技術(shù)分享干貨槽棍、最新AI論文解讀捉蚤。歡迎關(guān)注我們的專欄：AI前線，也歡迎關(guān)注我們的同名公眾號刹泄，ID：ai-front

最后編輯于：2017.12.11 04:14:29

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末外里，一起剝皮案震驚了整個濱河市怎爵，隨后出現(xiàn)的幾起案子特石，更是在濱河造成了極大的恐慌，老刑警劉巖鳖链，帶你破解...
沈念sama閱讀 221,273評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件姆蘸，死亡現(xiàn)場離奇詭異，居然都是意外死亡芙委，警方通過查閱死者的電腦和手機逞敷，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,349評論 3贊 398
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來灌侣，“玉大人推捐，你說我怎么就攤上這事〔嗵洌” “怎么了牛柒？”我有些...
開封第一講書人閱讀 167,709評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵堪簿，是天一觀的道長。經(jīng)常有香客問我皮壁，道長椭更，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 59,520評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任蛾魄，我火速辦了婚禮虑瀑，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘滴须。我一直安慰自己舌狗，他們只是感情好，可當(dāng)我...
茶點故事閱讀 68,515評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布描馅。她就那樣靜靜地躺著把夸，像睡著了一般。火紅的嫁衣襯著肌膚如雪铭污。梳的紋絲不亂的頭發(fā)上恋日，一...
開封第一講書人閱讀 52,158評論 1贊 308
城市分裂傳說
那天，我揣著相機與錄音嘹狞，去河邊找鬼岂膳。笑死，一個胖子當(dāng)著我的面吹牛磅网，可吹牛的內(nèi)容都是我干的谈截。我是一名探鬼主播，決...
沈念sama閱讀 40,755評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼涧偷，長吁一口氣：“原來是場噩夢啊……” “哼簸喂！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起燎潮，我...
開封第一講書人閱讀 39,660評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤喻鳄，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后确封，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體除呵，經(jīng)...
沈念sama閱讀 46,203評論 1贊 319
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,287評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年爪喘，在試婚紗的時候發(fā)現(xiàn)自己被綠了颜曾。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,427評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡秉剑，死狀恐怖泛豪，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤诡曙，帶...
沈念sama閱讀 36,122評論 5贊 349
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布吕粹，位于F島的核電站，受9級特大地震影響岗仑，放射性物質(zhì)發(fā)生泄漏匹耕。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,801評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一荠雕、第九天我趴在偏房一處隱蔽的房頂上張望稳其。院中可真熱鬧，春花似錦炸卑、人聲如沸既鞠。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,272評論 0贊 23
一樁弒父案盖文，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽嘱蛋。三九已至，卻和暖如春五续，著一層夾襖步出監(jiān)牢的瞬間洒敏，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,393評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工疙驾，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留凶伙，地道東北人。一個月前我還...
沈念sama閱讀 48,808評論 3贊 376
代替公主和親
正文我出身青樓它碎，卻偏偏與公主長得像函荣，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子扳肛，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,440評論 2贊 359

算法比數(shù)據(jù)和計算更重要草姻，AlphaGo Zero自學(xué)3天100:0完爆舊狗

算法比數(shù)據(jù)和計算更重要魄宏，AlphaGo Zero自學(xué)3天100:0完爆舊狗

推薦閱讀更多精彩內(nèi)容