姓名:潘虹瑋? ? ? ? ?? 學號:16020199005
轉載自:https://ai.ofweek.com/news/2018-12/ART-201717-8140-30294345.html
【嵌牛導讀】: 在圍棋上打敗天下無敵手之后花沉,DeepMind旗下的Alpha家族開始深入探究所有棋類,其中就包括國際象棋磷脯、日本將軍棋娩脾。
【嵌牛鼻子】:眾所周知,在國際象棋方面俩功,IBM的深藍在20年前就打敗了國際象棋大師闹瞧,而后續(xù)的Stockfish和Komodo這些國際象棋程序也早已獨霸國際象棋世界奥邮。
【嵌牛提問】:AlphaZero為什么會這么厲害?讓我們去文中一探究竟洽腺。
【嵌牛正文】:
在圍棋上打敗天下無敵手之后蘸朋,DeepMind旗下的Alpha家族開始深入探究所有棋類,其中就包括國際象棋团南、日本將軍棋炼彪。
2018年12月初,在AlphaZero誕生一周年之際拷橘,《自然》雜志以封面文發(fā)布了AlphaZero經過同行審議的完整論文喜爷,Deepmind創(chuàng)始人兼CEO哈薩比斯親自執(zhí)筆了這一論文檩帐。
AlphaGo Zero發(fā)布于2017年10月,而起真正受到重視是在去年12月初發(fā)布的《科學》雜志上特愿,論文顯示勾缭,AlphaGo Zero在三天內自學了三種不同的棋類游戲,包括國際象棋毒嫡、圍棋和日本將軍棋幻梯,而且無需人工干預碘梢。這一成果震驚了國際象棋世界,幾個小時內肛鹏,AlphaGo Zero就成為了世界上最好的棋類玩家恩沛。
眾所周知,在國際象棋方面芒珠,IBM的深藍在20年前就打敗了國際象棋大師搅裙,而后續(xù)的Stockfish和Komodo這些國際象棋程序也早已獨霸國際象棋世界。在AlphaGo Zero發(fā)布之后娜汁,很多人質疑了其在國際象棋領域的價值甥啄。而本次的完整論文蜈漓,對一些人認為機器算法下國際象棋沒有價值的論調提出了幾個措辭頗為嚴厲的批評。這是因為享完,在過去的12個月里有额,AlphaZero清楚展示了人類從未見過的一種智慧彼绷。
下面寄悯,就讓我們通過論文來分析下AlphaZero堕义。
深藍、Stockfish和Komodo雖然能贏人類洒擦,但不能真正理解棋局
文章指出怕膛,在過去的二十年里褐捻,用機器算法下國際象棋已經取得了很大進步。1997年倦蚪,IBM公司的國際象棋程序“深藍”(Deep Blue)在一場六局的比賽中擊敗了當時的人類世界冠軍卡斯帕羅夫(Garry Kasparov)”咂唬現(xiàn)在看來,這一成就并不神秘慕购。深藍每秒可以計算2億個位置茬底。它從不疲倦阱表,從不在計算中出錯,也從不會忘記片刻之前的想法涉馁。
無論結果是好是壞爱致,“深藍”都像一臺真正的機器糠悯,粗暴而物質化妻往。它的計算能力遠超過卡斯帕羅夫讯泣,但卻無法真正從思維上超越他灰署。在第一局的比賽中局嘁,深藍貪婪地接受了卡斯帕羅夫用車換一名主教的犧牲,卻在16步之后輸了比賽‰惹眩現(xiàn)在寡痰,諸如Stockfish和Komodo等當前世界上最強的國際象棋程序仍然在以這種方式下棋棋凳。它們喜歡吃掉對手的棋子;它們防守像鋼鐵一樣強悍贞滨。但是拍棕,盡管這些國際象棋程序要比任何人類棋手強大得多绰播,但并沒有真正理解棋局本身的意義。
經過幾十年的發(fā)展链蕊,人類大師關于棋類游戲的經驗都被作為復雜的評估工具編進程序中谬泌,表明在下棋中該尋求什么樣的有利位置以及避免陷入什么樣的不利境地呵萨。比如,王的安全性囱皿,棋子的活動、兵形耕渴、中心控制齿兔,以及如何平衡利弊。但以往很多國際象棋程序卻天生無視這些原則添诉,給人留下的印象是野蠻粗暴的医寿,這些程序速度快得驚人靖秩,但卻完全缺乏洞察力。
AlphaGo Zero不僅打敗了人類和所有程序花颗,還擁有洞察力
所有這些都隨著機器學習的興起而改變惠拭。AlphaZero通過與自己對弈并根據(jù)經驗更新神經網(wǎng)絡求橄,從而發(fā)現(xiàn)了國際象棋的原理,并迅速成為史上最好的棋手条霜。它不僅能夠輕而易舉地擊敗所有最強大的人類棋手涵亏,還能擊敗當時的計算機國際象棋世界冠軍Stockfish气筋。在與Stockfish進行的100場比賽中,AlphaZero取得28勝72平的好成績麸恍。它沒有輸?shù)粢粓霰荣悺?/p>
最令人不可思議的是,AlphaZero似乎表達出一種天然的洞察力刻肄。它具備浪漫而富有攻擊性的風格敏弃,以一種直觀而優(yōu)美的方式發(fā)揮著電腦所沒有的作用噪馏。它會玩花招欠肾,冒險。在其中幾局中步清,它使Stockfish癱瘓并玩弄它虏肾。當AlphaZero在第10局進行進攻時欢搜,它把自己的皇后佯退到棋盤的角落里炒瘟,遠離Stockfish的國王。通常來說缘琅,這并不是攻擊皇后應該被放置的地方调鬓。
然而,這種奇怪的撤退行為充滿了惡意,不管Stockfish如何應對专缠,它都注定要失敗涝婉。經過數(shù)十億次殘酷的計算后,AlphaZero幾乎是在等待Stockfish意識到吩跋,自己的處境是多么無望,就像一頭被擊敗的公牛面對斗牛士一樣平靜落敗怠惶。大師們從未見過這樣的機器轧粟。AlphaZero擁有精湛的技藝兰吟,同時也擁有機器的力量。這是人類第一次瞥見一種令人敬畏的新型智能履腋。
很明顯惭嚣,AlphaZero獲勝靠的是更聰明的思維晚吞,而不是更快的思維。它每秒只計算6萬個位置迁沫,而Stockfish會計算6千萬個集畅。它更明智缅糟,知道該思考什么,該忽略什么逃贝°灏猓卡斯帕羅夫在《科學》雜志文章附帶的一篇評論中寫道句占,AlphaZero通過自主發(fā)現(xiàn)國際象棋的原理,開發(fā)出一種“反映游戲真相”的玩法祈餐,而不是“程序員式的優(yōu)先級和偏見”哄陶。
除了棋類屋吨,AlphaZero還能做什么?
現(xiàn)在的問題是鳍徽,機器學習能否幫助人類發(fā)現(xiàn)所關心問題的真相敢课?比如像癌癥和意識直秆、免疫系統(tǒng)之謎切厘、基因組之謎等科學和醫(yī)學尚未解決的重大問題。
早期跡象令人鼓舞。去年8月份鹃两,《自然醫(yī)學》上的兩篇文章探討了機器學習如何應用于醫(yī)學診斷俊扳。在一項研究中馋记,DeepMind研究人員與倫敦莫爾菲爾德眼科醫(yī)院(Moorfields Eye Hospital)的臨床醫(yī)生合作,開發(fā)出一種深度學習算法宽堆,可以準確地對各種視網(wǎng)膜病變進行分類畜隶。
另一篇文章也涉及一種機器學習算法,其能夠確定急診室病人的CT掃描是否顯現(xiàn)出中風浸遗、顱內出血或其他重要神經疾病的跡象跛锌。對于中風患者來說届惋,每一分鐘都很重要盼樟;治療耽誤的時間越長,結果就越糟晨缴。新算法的準確性堪比人類專家击碗,而且比人類專家快150倍。一個更快的診斷有助于醫(yī)生對最緊急病例進行快速分類阁吝,并由人類放射科醫(yī)生進行復查械拍。
然而令人沮喪的是坷虑,機器學習算法還無法清晰表達它們的想法。我們不知道它們如何得出結論定躏,所以也就無從確定能否信任機器痊远。AlphaZero似乎已經發(fā)現(xiàn)了一些有關國際象棋的重要原則氏捞,但它無法與我們分享這種洞察力幌衣。作為人類,我們想要的不僅僅是答案哼凯,我們想要的是洞察力欲间。從現(xiàn)在起,這將成為我們與電腦互動交流的開始断部。
事實上猎贴,這一情況在數(shù)學領域中早有耳聞。四色映射定理就是這樣一個長期存在的數(shù)學問題蝴光。該定理指出在一定的合理約束條件下她渴,有關相鄰國家的任何地圖都可以只使用四種顏色進行著色,這樣相鄰兩個國家的顏色就不會相同蔑祟。
雖然人們最終在計算機幫助下于1977年證明了四色映射定理趁耗,但是沒有人能夠檢驗論證中的所有步驟。從那以后苛败,這個定理的證明得到了驗證和簡化,但仍有一些部分需要進行蠻力計算径簿。這種發(fā)展使許多數(shù)學家感到惱火罢屈。他們不需要確認四色定理是正確的,但他們想知道為什么這是真的篇亭,但是證明沒有幫助缠捌。
暢想未來:通用算法何時到來?
但是設想有一天译蒂,也許就在不久的將來曼月,AlphaZero已經發(fā)展成為一種更通用的解決問題算法,其將擁有至高無上的洞察力柔昼,它能夠拿出漂亮的證據(jù)十嘿,就像AlphaZero與Stockfish對弈時一樣優(yōu)雅,而且每一個證明都會揭示為什么定理是正確的岳锁。
對于人類數(shù)學家和科學家來說,這一天將標志著一個新時代的到來蹦魔。機器的速度越來越快激率,相比之下人類神經元卻以毫秒級的速度緩慢運轉,我們再也跟不上機器的理解速度勿决,人類洞察力的黎明可能很快就會變成黃昏乒躺。
無論是基因調控或癌癥,還是免疫系統(tǒng)的編排低缩,抑或是亞原子粒子的運動嘉冒,其中或許還存在有待于發(fā)現(xiàn)的更深層模式曹货。假設這些模式需要超越人類的更高智能來預測,而AlphaZero的繼任者又能夠識別并理解它們讳推,那么在我們人類看來算法就像是一個神諭顶籽。
或許未來,我們不再明白為什么計算機的結論總是正確的银觅,但我們可以通過實驗和觀察來檢驗它的計算和預測礼饱。科學將把我們的角色降低到旁觀者的角色究驴,在驚奇和困惑中目瞪口呆镊绪。
也許最終我們不再糾結于人類自身關于洞察力的匱乏。畢竟機器算法將能夠治愈我們所有的疾病洒忧,解決我們所有的科學問題蝴韭,并讓我們所有的一切順利前行。在我們作為智人存在的最初30萬年時間里熙侍,我們在沒有多少洞察力的情況下一樣生存得相當好榄鉴。我們將自豪地回憶起人類洞察力的黃金時代,這段幾千年的輝煌插曲就發(fā)生在我們不理解的過去和我們不可思議的未來之間核行。
Alpha家族高手煉成記
Alpha家族系列出自DeepMind公司牢硅,這家公司是2010年由杰米斯·哈薩比斯,謝恩·列格和穆斯塔法·蘇萊曼創(chuàng)立的芝雪。在2014年减余,DeepMind榮獲了劍橋大學計算機實驗室的“年度公司”獎項。2014年1月26日惩系,Google宣布收購DeepMind科技位岔,收購的價格大概為4億美元。
顯然堡牡,DeepMind真正被全球熟知是在第一次人機大戰(zhàn)之后抒抬,從2016年的那場對弈之后,DeepMind旗下的圍棋AI就開始了超神之路晤柄。
2016年1月27日擦剑,AlphaGo在沒有任何讓子的情況下,以5:0完勝歐洲圍棋冠軍芥颈、職業(yè)二段選手樊麾惠勒。在圍棋人工智能領域,實現(xiàn)了一次史無前例的突破爬坑。計算機程序能在不讓子的情況下纠屋,在完整的圍棋競技中擊敗專業(yè)選手,這是第一次盾计。
2016年3月售担,阿爾法圍棋與圍棋世界冠軍赁遗、職業(yè)九段棋手李世石進行圍棋人機大戰(zhàn),以4比1的總比分獲勝族铆,舉世嘩然岩四,人工智能概念開始被大眾熟知。
2016年末2017年初骑素,該程序在中國棋類網(wǎng)站上以“大師”(Master)為注冊賬號與中日韓數(shù)十位圍棋高手進行快棋對決炫乓,連續(xù)60局無一敗績;
2017年5月献丑,在中國烏鎮(zhèn)圍棋峰會上末捣,阿爾法圍棋以3比0的總比分戰(zhàn)勝排名世界第一的世界圍棋冠軍柯潔。在這次圍棋峰會期間的2017年5月26日创橄,阿爾法圍棋還戰(zhàn)勝了由陳耀燁箩做、唐韋星、周睿羊妥畏、時越邦邦、羋昱廷五位世界冠軍組成的圍棋團隊。在柯潔與阿爾法圍棋的人機大戰(zhàn)之后醉蚁,阿爾法圍棋團隊宣布阿爾法圍棋將不再參加圍棋比賽燃辖。
2017年10月18日,DeepMind團隊公布了最強版AlphaGo网棍,代號AlphaGo Zero黔龟。它的獨門秘籍是“自學成才”。而且滥玷,是從一張白紙開始氏身,零基礎學習,在短短3天內惑畴,成為頂級高手蛋欣。經過短短3天的自我訓練,AlphaGo Zero就強勢打敗了此前戰(zhàn)勝李世石的舊版AlphaGo如贷,戰(zhàn)績是100:0的陷虎。
2017年12月5日,AlphaGo Zero迎來升級杠袱,這個被稱為AlphaZero的程序在三天內自學了三種不同的棋類游戲泻红,包括國際象棋、圍棋和日本的將軍棋霞掺,無需人工干預,一篇描述這一成就的論文今年12月初在《科學》雜志發(fā)表讹躯。在AlphaZero之外菩彬,DeepMind在醫(yī)療領域還打造了一個名為AlphaFold的AI系統(tǒng)缠劝,它能夠應對當今生物學中最大的挑戰(zhàn)之一:模擬蛋白質的形狀。
2018年12月骗灶,AlphaGo Zero登上《自然》雜志封面惨恭,完整論文首次公開。