要說最近人工智能領(lǐng)域誰最火,Master肯定是當(dāng)仁不讓巴席。在橫掃中日韓頂尖圍棋高手历涝,豪取60連勝之后,神秘的Master終于于1月4號晚上亮明了身份漾唉,它就是AlphaGo睬关。不過,這樣的結(jié)果讓人意外也讓人不意外.
這樣的改變來自哪里居扒,與之前的AlphaGo相比概漱,Master又有了哪些新的進(jìn)步。
1月5號喜喂,DeepMind在回復(fù)澎湃新聞(www.thepaper.cn)的郵件時表示:“我們一直在改進(jìn)AlphaGo瓤摧,包括算法上的創(chuàng)新、通過左右互搏訓(xùn)練來學(xué)習(xí)玉吁。我們這次進(jìn)行這些非正式的快棋比賽照弥,為今年晚些時候的標(biāo)準(zhǔn)時長的正式比賽做準(zhǔn)備。其實很多其他的智能圍棋系統(tǒng)也會披著馬甲在網(wǎng)上試水的进副。我們沒料到會引發(fā)這么大的關(guān)注度这揣,但是既然這么多棋手都表示挺感興趣的,那我們想還是出來承認(rèn)一下吧影斑「蓿”
在Master宣布自己身份后,DeepMind創(chuàng)始人監(jiān)CEO德米斯·哈薩比斯(Demis Hassabis)也在其個人推特賬號上表達(dá)了自己的激動心情矫户。這份聲明也從官方層面證明了Master的身份片迅。
這位有著“天才”和“工作狂”之稱的創(chuàng)始人吏垮,對于圍棋有著濃厚的興趣障涯,13歲時獲得了國際象棋大師的稱號。1月3日膳汪,DeepMind發(fā)布的官方博文中透露唯蝶,除了圍棋,公司還在和英國的當(dāng)?shù)蒯t(yī)療機構(gòu)合作遗嗽,希望提供更好的醫(yī)療服務(wù)粘我。同時,公司也在考慮挑戰(zhàn)《星際爭霸2》游戲痹换。
在如此短的時間里征字,做出了如此驚人的成績,這家2010年初創(chuàng)于英國倫敦的人工智能公司娇豫,究竟有著什么樣的魔力匙姜?
Master強在哪里?
要知道Master變得有多強冯痢,得先從AlphaGo的算法說起氮昧。
《經(jīng)濟學(xué)人》曾發(fā)文對AlphaGo的算法進(jìn)行解釋框杜,認(rèn)為它得意的地方在于用新的方法,試著讓電腦發(fā)展出如何下棋的直覺——能自己發(fā)現(xiàn)人類選手理解卻無法解釋的原則袖肥。它采用深度學(xué)習(xí)的技術(shù)咪辱,通過重復(fù)地復(fù)雜統(tǒng)計,讓電腦從巨大的無用數(shù)據(jù)中提取出通用的原則椎组。
深度學(xué)習(xí)需要兩個東西:足夠多的處理單元及足夠多的可供學(xué)習(xí)的數(shù)據(jù)油狂。DeepMind用了3000萬棋譜樣本來訓(xùn)練機器,這些棋譜來自業(yè)余和職業(yè)選手聚集下棋的在線服務(wù)器寸癌。另外AlphaGo還通過和自己對弈专筷,進(jìn)行微調(diào),從而能快速產(chǎn)生更多的訓(xùn)練數(shù)據(jù)灵份。
這些數(shù)據(jù)需要經(jīng)過深度學(xué)習(xí)的兩種算法處理仁堪。一是所謂的策略網(wǎng)絡(luò),用來訓(xùn)練模仿人類行為填渠∠夷簦看過數(shù)百萬計的對局后,它已學(xué)會提取特征氛什、原則和經(jīng)驗法則莺葫。它在對局中的工作就是觀察棋盤的狀態(tài),并產(chǎn)生一些看起來更有希望的步數(shù)提供給第二個算法考慮枪眉。
第二個算法叫做價值網(wǎng)絡(luò)捺檬,用來評估一個步數(shù)的致勝概率。機器會根據(jù)策略網(wǎng)絡(luò)的建議贸铜,評估數(shù)以千計的走法堡纬。因為圍棋如此復(fù)雜,所以將所有可能的走法都走完是不可能的蒿秦。作為替代烤镐,價值網(wǎng)絡(luò)會評估數(shù)個步數(shù)后可能的棋盤狀態(tài),并與它之前見過的例子進(jìn)行比較棍鳖。這種想法是找出統(tǒng)計意義上最像過去能夠獲勝的棋形炮叶。策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)結(jié)合起來構(gòu)成了人類棋手需要通過幾年實踐才能累積的圍棋智慧。
值得一提的是渡处,韓國棋手李世石在與AlphaGo進(jìn)行對決時镜悉,曾在第四局時贏過一盤。但這次Master直接取得了60連勝医瘫。
“目前DeepMind的具體改進(jìn)還沒公開侣肄,但我猜測經(jīng)過了半年多訓(xùn)練,數(shù)據(jù)量提升了不少醇份。另外茫孔,針對上回第四盤棋的弱點叮喳,估計在訓(xùn)練方法上也有改進(jìn),比如左右互搏缰贝,自己和自己下能增加數(shù)據(jù)量∨媳簦” 第四方式創(chuàng)始人兼CEO戴文淵表示剩晴。
除此之外,比起AlphaGo侵状,這次Master的下棋時長更短赞弥。這也被外界認(rèn)為是提升之一。但有多位人工智能領(lǐng)域?qū)<冶硎救ば郑鋵嵖炱鍖τ谌斯ぶ悄芟到y(tǒng)來說更有利绽左,因為人在緊張時會犯更多錯誤。
Master這次的表現(xiàn)艇潭,讓國內(nèi)許多頂級的圍棋高手感嘆拼窥。世界冠軍古力九段在輸給Master后,在接受采訪時稱:“沒看過它下慢棋蹋凝,但進(jìn)步肯定巨大鲁纠,具體不知道該怎么衡量。原來覺得圍棋招法有限鳍寂,現(xiàn)在覺得下棋可以更加自由改含。”
“從上回的態(tài)勢看迄汛,其實趨勢上人類已經(jīng)沒有機會了捍壤。機器就像個怪獸,人未來可能可以僥幸戳到死穴贏一兩盤鞍爱【榫酰”戴文淵在回答關(guān)于人機對弈未來的意義時說。
對于DeepMind公司來說硬霍,新一年會繼續(xù)對圍棋項目進(jìn)行深入帜慢,但在其1月3日發(fā)表的博文中,Deepmind稱接下去會做的三件事:實現(xiàn)算法突破唯卖,提升社會影響粱玲,建立倫理規(guī)范。我們機器人2025也對此作了相應(yīng)的報道拜轨。
“其實他們還想做醫(yī)療抽减,但醫(yī)療的數(shù)據(jù)獲取成本比圍棋大太多了,完全是另一個問題橄碾。另外卵沉,實時對戰(zhàn)游戲會更難颠锉,例如星際爭霸,因為復(fù)雜度比圍棋還大史汗∏砺樱”戴文淵說。
Master和AlphaGo背后的團(tuán)隊
無論是Master還是AlphaGo停撞,它們的成功背后瓷蛙,都離不開DeepMind團(tuán)隊的努力。在外媒的描述中戈毒,創(chuàng)始人之一德米斯·哈薩比斯(Demis Hassabis)謙虛艰猬、認(rèn)真,對自己目前的工作抱有“解決智能問題埋市,隨后利用這一技術(shù)去解決所有一切”的態(tài)度冠桃。
同時也能用天才來形容這位創(chuàng)始人。哈薩比斯道宅,8歲時就編寫了自己的計算機游戲食听,13歲時獲得了國際象棋大師的稱號,17歲時開發(fā)了首款引入人工智能元素的電子游戲《主題公園》并大獲成功培己,20歲時在劍橋大學(xué)計算機科學(xué)系獲得了兩門學(xué)科優(yōu)等成績碳蛋,擁有劍橋大學(xué)和倫敦大學(xué)學(xué)院的計算機科學(xué)和認(rèn)知神經(jīng)科學(xué)雙學(xué)位。不久后創(chuàng)建了自己的電子游戲公司Elixir并完成了關(guān)于大腦海馬體和情景記憶的前沿性學(xué)術(shù)研究省咨。 2011年創(chuàng)立DeepMind肃弟,而在此之前,他在哈佛大學(xué)和麻省理工學(xué)院取得博士后零蓉。隨后笤受,公司在2014年被谷歌收購,直到人工智能項目AlphaGo敌蜂,引發(fā)全球關(guān)注箩兽。
被谷歌收購后,DeepMind的總部依舊維持在英國倫敦章喉。DeepMind在倫敦大約有140名成員汗贫,也是目前英國最有趣的科技公司之一。DeepMind優(yōu)秀的人才隊伍也可能是谷歌2014年愿意斥資4億英鎊收購的主要原因之一秸脱。
相信智能程序?qū)⒛軌驇椭l(fā)掘出可以利用于社會福祉的新科學(xué)知識落包。在過去的幾年發(fā)展中,他們與谷歌的數(shù)據(jù)中心團(tuán)隊運用了類似AlphaGo這樣的技術(shù)發(fā)現(xiàn)了管理制冷系統(tǒng)的新方法摊唇,使建筑節(jié)能到達(dá)了15%咐蝇。如果把這些技術(shù)應(yīng)用在其他更大型的工業(yè)系統(tǒng)上,就會節(jié)省更多的能源開支從而保護(hù)生態(tài)環(huán)境巷查。此外有序,DeepMind還在英國積極推進(jìn)了與兩家國家衛(wèi)生署醫(yī)院在深度學(xué)習(xí)科研方面的戰(zhàn)略合作抹腿,去探索如何讓科技更準(zhǔn)確地診斷、治療形形色色的疾残袷佟警绩;并和另兩家醫(yī)院合作研發(fā)了用于臨床的移動應(yīng)用和基礎(chǔ)設(shè)施,使病患得到更貼心的醫(yī)療護(hù)理许师。
“最終房蝉,我們想要將這些技術(shù)應(yīng)用到真實世界的重要問題中。因為我們用的方法是通用的微渠,我們希望有一天,它們能延伸得更廣咧擂,幫助解決最緊迫的社會問題逞盆,從醫(yī)藥診斷到環(huán)境模型∷缮辏”哈薩比斯說云芦。
本文由機器人2025微信公號編輯部編輯整理,圖文來自網(wǎng)絡(luò)贸桶,喜歡的可以微信關(guān)注我們舅逸。