張凱? ?17021211151
轉(zhuǎn)載至:https://mp.weixin.qq.com/s/AG7lkgzxbBNY1yR3nDrY0Q
嵌牛導(dǎo)讀:AI機(jī)器人AlphaGo打敗天下無(wú)敵手掺炭,已經(jīng)出人頭地了。人們何不向AlphaGo(及AlphaGo Zero)學(xué)習(xí)呢沪铭?
嵌牛鼻子:AlphaGo??
嵌牛提問(wèn):在當(dāng)今AI潮流下旱易,企業(yè)和年輕人,如何出人頭地呢建丧?
AlphaGo懂得如何征服自己面對(duì)的巨大不確定性棋局排龄,因而超越了人類(lèi)頂尖高手。學(xué)習(xí)AlphaGo如何探索機(jī)會(huì)之后,創(chuàng)客就懂得了如何面對(duì)AI的不確定市場(chǎng)橄维。企業(yè)就像AlphaGo一樣尺铣,可以超越頂尖的人類(lèi)競(jìng)爭(zhēng)對(duì)手,出人頭地了争舞。
傳統(tǒng)上凛忿,人類(lèi)的學(xué)習(xí)偏重于“利用”所學(xué)的知識(shí),去發(fā)揮所長(zhǎng)竞川,解決問(wèn)題店溢。如果人類(lèi)能從AI強(qiáng)化學(xué)習(xí)得到啟示,強(qiáng)化探索能力委乌,則人人能探索更多可能床牧,得到更多機(jī)會(huì),如圖1所示遭贸。
在高度不確定性的環(huán)境里戈咳,唯有懂得降低風(fēng)險(xiǎn),才敢大膽探索壕吹、提高勝率著蛙。一旦你選擇了創(chuàng)客/創(chuàng)業(yè)之路,若能向它學(xué)會(huì)探索機(jī)會(huì)的方法耳贬,將會(huì)協(xié)助你在創(chuàng)業(yè)路途上心想事成册踩,鴻圖大展。
強(qiáng)化學(xué)習(xí)
探索和利用之間找到平衡
強(qiáng)化學(xué)習(xí)(Reinforcement Learning)的算法又稱(chēng)為近似動(dòng)態(tài)規(guī)劃(approximate dynamic programming效拭,簡(jiǎn)稱(chēng)ADP)暂吉。它在探索(在未知的領(lǐng)域)和利用(現(xiàn)有知識(shí))之間找到平衡。探索就是嘗試以前從未想過(guò)或做過(guò)的事情缎患,以求獲得更高的報(bào)酬慕的。利用就是做當(dāng)前條件下能產(chǎn)生最大回報(bào)的事情。
例如挤渔,假設(shè)在你家的附近有十個(gè)餐館肮街,到目前為止,你只在其中的八家餐館吃過(guò)飯判导,了解了這八家餐館中哪家是最好吃的嫉父。如果有一天,你的女朋友來(lái)看你眼刃,你想請(qǐng)她去最棒的餐館晚餐绕辖。請(qǐng)問(wèn)您會(huì)如何選擇餐館呢?在這個(gè)例子里擂红,利用就意味著你帶她去所知道的八家中最好吃餐館仪际;而探索則是帶她去你從沒(méi)吃過(guò)的第九家或第十家餐館晚餐。
如果你選擇八家中最好吃的餐館,那么树碱,也許第九家或第十家比這八家都好吃呢肯适?反之,如果你選擇第九家或第十家成榜,也許這兩家也可能比那八家都難吃框舔。
那么,你該如何選擇呢赎婚?這就是“探索-利用”困境刘绣。強(qiáng)化學(xué)習(xí)更接近生物學(xué)習(xí)的本質(zhì),一個(gè)標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)算法必然要包括探索和利用惑淳,強(qiáng)化學(xué)習(xí)更接近生物學(xué)習(xí)的本質(zhì)额港。
谷歌的專(zhuān)家們(即人類(lèi)老師)已經(jīng)把這種“探索和利用”平衡的技巧(算法)教給了AlphaGo(機(jī)器學(xué)生)饺窿,讓AlphaGo(及AlphaGo Zero)超越了人類(lèi)的圍棋頂尖高手歧焦。
傳統(tǒng)的人類(lèi)學(xué)習(xí)是學(xué)以致用(利用所學(xué))為依歸,由于常常受限于現(xiàn)有知識(shí)肚医,無(wú)論是人類(lèi)或機(jī)器學(xué)生都只能得到區(qū)域最優(yōu)绢馍,如圖2所示。
因此肠套,無(wú)論是機(jī)器學(xué)生或人類(lèi)學(xué)生舰涌,一旦具有強(qiáng)化學(xué)習(xí)能力,都能大大提升其探索未知機(jī)會(huì)的能力你稚,有信心去探索更大的狀態(tài)空間瓷耙,從而得到全局最優(yōu),讓學(xué)生們成為AI時(shí)代的大贏家刁赖,人人能探索更多可能搁痛,也捕捉到更多好機(jī)會(huì)。
懂得避風(fēng)險(xiǎn)
才敢大膽探索宇弛,才有熱情創(chuàng)新
大膽探索的同時(shí)鸡典,必須要有效降低風(fēng)險(xiǎn)。這是AI時(shí)代人類(lèi)可以向機(jī)器學(xué)習(xí)的重要一課枪芒。AI強(qiáng)化學(xué)習(xí)已經(jīng)把這種“探索-利用”最佳平衡的算法效益發(fā)揮出來(lái)彻况,然而需要搭配一種降低風(fēng)險(xiǎn)的策略。
AlphaGo的目標(biāo)總是將獲勝機(jī)率最大化放在第一位舅踪,它會(huì)透過(guò)尋找確定的搜索途徑實(shí)現(xiàn)最低風(fēng)險(xiǎn)的獲勝機(jī)會(huì)纽甘。例如,AlphaGo的行為會(huì)傾向?yàn)榱巳俣艞壐嘹A子數(shù)抽碌,只為了降低不能取勝的風(fēng)險(xiǎn)贷腕。
AlphaGo的蒙地卡羅算法給出的是搜索之后的勝率評(píng)估,然后AI會(huì)根據(jù)這個(gè)勝率來(lái)選擇落子點(diǎn)。懂得避免風(fēng)險(xiǎn)泽裳,才敢大膽探索瞒斩、熱情創(chuàng)新。因而涮总,AlphaGo能在高度不確定性的圍棋棋局中超越人類(lèi)高手胸囱。
俗語(yǔ)說(shuō),商場(chǎng)如戰(zhàn)場(chǎng)瀑梗,它們都跟圍棋競(jìng)賽一樣具有高度的不確定性烹笔。因而人們(如企業(yè)家)可以從AlphaGo學(xué)會(huì)如何在商場(chǎng)上,善于面對(duì)如圍棋棋局中高度不確定性的市場(chǎng)環(huán)境抛丽,超越其他競(jìng)爭(zhēng)者谤职!
不確定性
與不確定性共舞
向AlphaGo學(xué)習(xí),有助于提升人們(如學(xué)生)的避風(fēng)險(xiǎn)能力和信心亿鲜,以便更具備創(chuàng)新精神允蜈。就如同,下述這句名言:
When you focus on problems蒿柳,you’ll have more problems. When you focus on possibilities饶套,you’ll have more opportunities.
當(dāng)你專(zhuān)注于問(wèn)題時(shí),你就會(huì)有更多的問(wèn)題垒探;當(dāng)你專(zhuān)注于可能性時(shí)妓蛮,你就會(huì)有更多的機(jī)會(huì)。
當(dāng)人們一直專(zhuān)注于問(wèn)題時(shí)圾叼,是基于過(guò)去經(jīng)驗(yàn)蛤克,評(píng)估具有現(xiàn)實(shí)條件支撐,力求化解問(wèn)題或避免問(wèn)題發(fā)生的或然性(probability)夷蚊,在心中逐漸萌生具有高度的明確感构挤。這種通過(guò)或然性思維而得到地明確感稱(chēng)為或然性明確感。
大家都知道撬码,當(dāng)面對(duì)不確定情況時(shí)儿倒,人們總是需要明確感才會(huì)安心。大多數(shù)人習(xí)慣于或然性思維呜笑,一直專(zhuān)注于問(wèn)題夫否,力求化解問(wèn)題或避免問(wèn)題發(fā)生的或然性。于是叫胁,在心中逐漸萌生具有高度安心的明確感
這種或然性思維得到的明確感稱(chēng)為或然性明確感凰慈,但是,常常會(huì)基于經(jīng)驗(yàn)和現(xiàn)實(shí)而過(guò)濾掉機(jī)率小的可能方案驼鹅,而失去許多機(jī)會(huì)微谓。
可能性明確感試圖涵蓋未來(lái)各種可能的機(jī)會(huì)森篷,避免基于經(jīng)驗(yàn)和現(xiàn)實(shí)而過(guò)濾掉或機(jī)率小的可能方案。然后豺型,逐步探索經(jīng)驗(yàn)和現(xiàn)實(shí)進(jìn)行否證而去蕪存菁仲智,逐漸提升心中的明確感。即面對(duì)復(fù)雜和新的未知世界姻氨,培養(yǎng)先容納內(nèi)心的不確定性钓辆,規(guī)劃方案并采取行動(dòng)試驗(yàn)(試錯(cuò)),逐漸提升明確性和信心肴焊。
可能性意味著或然性很小的事件前联,有人稱(chēng)之為“黑天鵝”。它的出現(xiàn)娶眷,初期并不起眼似嗤,經(jīng)過(guò)一段時(shí)間,逐漸產(chǎn)生乘數(shù)效果的巨大效應(yīng)届宠。為什么會(huì)是“當(dāng)你專(zhuān)注于可能性時(shí)烁落,你就會(huì)有更多的機(jī)會(huì)”呢?
因?yàn)樯鲜龅囊欢螘r(shí)間是一項(xiàng)寶貴的資產(chǎn)席揽,例如顽馋,張榮發(fā)先生也是洞悉到物流集裝箱(黑天鵝)而獲得寶貴時(shí)間谓厘,并且預(yù)做準(zhǔn)備幌羞,因而獲得更多機(jī)會(huì)。而后來(lái)才進(jìn)入的競(jìng)爭(zhēng)者竟稳,就因缺乏時(shí)間資源而失去競(jìng)爭(zhēng)力属桦。
大多數(shù)人習(xí)慣于或然性思維者,他們常常成為失去寶貴時(shí)間的后知后覺(jué)者他爸,因?yàn)樗麄儠?huì)覺(jué)得黑天鵝聂宾,還沒(méi)普及流行,尚未成氣候诊笤。這種面對(duì)不確定系谐,逐步提升心中的明確感,通稱(chēng)為與不確定性共舞讨跟。人們總是需要明確感才會(huì)安心纪他。或然性明確感與可能性明確感晾匠,其目的是一致的:滿(mǎn)足內(nèi)心所需的明確感茶袒。只是手段不同而已。
例如凉馆,一只小獅子肚子餓了薪寓,依據(jù)成功經(jīng)驗(yàn)奮力去追兔子亡资,只是捕獲的兔子日漸減少(可能兔子變敏感了),有些困惑(明確感降低)向叉。這只小獅子的媽媽就教他:肚子餓了锥腻,就閉上眼睛睡大覺(jué),不要亂跑母谎。小獅子滿(mǎn)腦困惑旷太,不確定感急速上升,非常不安销睁。但母命難違供璧,只好勉強(qiáng)為之,果然耳朵變靈敏了冻记,清晰地聽(tīng)見(jiàn)兔子聲音越來(lái)越近睡毒,然后猛然奔出一抓,輕易捕獲冗栗,飽餐一頓演顾,繼續(xù)睡大覺(jué)。
君不見(jiàn)隅居,身為野獸之王的雄獅钠至、母獅,常程ピ矗看似想睡覺(jué)的表情棉钧,真是“總裁獅子心”呀!小獅子專(zhuān)注于問(wèn)題(如肚子餓了)涕蚤,卻引來(lái)更多的問(wèn)題(如追累了宪卿,走不動(dòng),引來(lái)生命危險(xiǎn))万栅。媽媽教小獅子不要圍繞問(wèn)題佑钾,而專(zhuān)注于可能性(如原來(lái)以為兔子不可能自動(dòng)送上門(mén)),反而發(fā)現(xiàn)更多的機(jī)會(huì)(如更容易填飽肚子的新途徑)烦粒。
結(jié) ?語(yǔ)
從AlphaGo下圍棋可以發(fā)現(xiàn)休溶,在面對(duì)高度不確定性的環(huán)境時(shí),它懂得專(zhuān)注于可能性扰她,探索更多機(jī)會(huì)兽掰,獲得全局最優(yōu)而出人頭地。人類(lèi)可以從AlphaGo學(xué)習(xí)到與不確定性共舞的能力义黎,就會(huì)如同小獅子一般禾进,探索到更多贏家之道。
作者信息
高煥堂廉涕,臺(tái)灣VR產(chǎn)業(yè)聯(lián)盟主席泻云、廈門(mén)VR/AR協(xié)會(huì)榮譽(yù)會(huì)長(zhǎng)兼總顧問(wèn)
AI不僅僅發(fā)生在對(duì)計(jì)算要求高的云端艇拍,還會(huì)出現(xiàn)在數(shù)量更加龐大的物聯(lián)網(wǎng)邊緣端,例如消費(fèi)電子宠纯、汽車(chē)電子卸夕、工業(yè)控制、測(cè)試測(cè)量等領(lǐng)域婆瓜。 為此快集,本媒體邀請(qǐng)部分AI芯片及EDA/IP廠商,介紹邊緣AI的最新技術(shù)進(jìn)展和解決方案廉白。