姓名:吳慶愷 學(xué)號:16020610024
轉(zhuǎn)載自:https://www.guokr.com/article/442345/ 有刪節(jié)
【嵌牛導(dǎo)讀】:近日,一條略帶詭異的消息傳遍了社交網(wǎng)絡(luò):“Facebook 的人工智能開發(fā)出了自己的秘密語言,嚇得工程師把它們的插頭給拔了鄙麦〉浯剑” 啥!胯府?這太有科幻片既視感了吧介衔?難道《終結(jié)者》里要滅絕人類的AI“天網(wǎng)”就要出現(xiàn)了嗎?
【嵌牛鼻子】:根本上威脅人類的存在盟劫,賦予聊天機器人跟人談判或者協(xié)商的能力夜牡,預(yù)期機制,廣泛應(yīng)用于數(shù)據(jù)挖掘侣签、計算機視覺塘装、自然語言處理、生物特征識別影所、搜索引擎蹦肴、醫(yī)學(xué)診斷。
【嵌牛提問】:機器學(xué)習(xí)能給人類帶來什么猴娩?
【嵌牛正文】:
一則宣稱“Facebook AI開發(fā)出自己的語言”的報道阴幌。圖片來源:bgr.com
Facebook AI的“秘密語言”長啥樣?
讓許多網(wǎng)絡(luò)媒體受驚的“AI的秘密語言”長這樣[1]:
智能體B:I can i i everything else
智能體A:balls have zero to me to me to me to me to me to me to me to me to
智能體B:you i everything else
智能體A:balls have a ball to me to me to me to me to me to me to me to me
看起來每個字母都認識對吧卷中,但連在一起完全不知道是什么意思矛双。然后兩個AI之間還說得興高采烈的?
這樣兩段不明所以的對話蟆豫,讓不少媒體一下炸開了鍋议忽。一家英國的通俗小報甚至引用了一名所謂“機器人學(xué)教授”的話,說這次事件“揭示了人工智能的危險性”十减,還說如果這種技術(shù)被用于軍用機器人“將導(dǎo)致致命的后果”……聯(lián)想起不到半個月前栈幸,SpaceX 的老板伊隆·馬斯克可是剛剛警告過大家,人工智能將會從“根本上威脅人類的存在”[2]帮辟。
說出這種對話的AI來自哪里速址?
說出上述謎樣對話的AI來自Facebook旗下的人工智能實驗室(Facebook Artificial Intelligence Research,簡稱 FAIR)由驹。人工智能屬于扎克伯格提到過的 Facebook 將來三大主要方向之一芍锚,一直備受重視。在2013年9月蔓榄,他們就成立了FAIR闹炉。
FAIR團隊。圖片來源:research.fb.com
FAIR基本上是一個只有投入而幾乎沒有近期產(chǎn)品壓力的團隊润樱。他們致力于研究和開發(fā)高水平的人工智能技術(shù)渣触,解決人工智能領(lǐng)域的一些前沿問題。例如運用機器學(xué)習(xí)進行人臉識別的DeepFace壹若、在機器學(xué)習(xí)中加入長期記憶來構(gòu)建自然語言的問答系統(tǒng)等嗅钻,都是這個團隊的研究成果皂冰。
FAIR做這個會對話的人工智能是為了什么?
難道真的是要造出個“天網(wǎng)”嗎养篓?不秃流,起碼現(xiàn)在還不是這樣的。
FAIR的研究人員表示柳弄,現(xiàn)在我們常見的語義分析程序(比如 Siri )已經(jīng)可以勝任一些簡單的對話舶胀,幫人類完成諸如導(dǎo)航、訂外賣之類的簡單任務(wù)碧注,而他們希望在此基礎(chǔ)上再進一步嚣伐。
利用神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí)算法,F(xiàn)AIR希望能做出一個能勝任復(fù)雜對話的聊天AI(類似微軟小冰那樣的萍丐,不過要比小冰聰明得多)轩端,程序不但要“理解”聊天內(nèi)容,并根據(jù)現(xiàn)有數(shù)據(jù)生成有意義的句子逝变,還要能通過對話和其他參與者達成某個設(shè)定好的目標基茵。
確切地說,他們希望賦予聊天機器人跟人談判或者協(xié)商的能力[3]壳影。
想想平時人類是怎么做的:每個人都有自己不同的目標拱层,互相之間產(chǎn)生分歧,然后通過協(xié)商達成一個雙方都認可的折中方案宴咧。研究表明根灯,工程師可以讓經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)AI模仿人類的談判行為,帶著各自不同的“目標”參與一個完整的協(xié)商過程悠汽,最后和其他AI或者人類達成一個共同的決定。他們就此發(fā)布了一篇預(yù)印本論文[4]芥驳,還把這個“談判者”AI的機器學(xué)習(xí)代碼給開了源柿冲。
然后,他們的AI就失控了兆旬?
并沒有假抄。并沒有。并沒有丽猬。
實際情況是這樣的:
為了模擬人類的協(xié)商行為宿饱,研究者首先訓(xùn)練了兩個能處理英文對話的AI,然后給它們設(shè)置了一個坐地分贓(大誤)的場景脚祟,給出了若干種數(shù)量不同的物品谬以。同時,兩個AI對于不同物品的“價值”被設(shè)置了不同的值由桌,所以它們所看重的物品可能是不同的为黎。它們需要通過互相對話來達成一致的分配辦法邮丰,同時讓獲得物品的總“價值”在自己看來盡可能的高。
比如铭乾,當書剪廉、帽子和籃球分別值0、7和1分時炕檩,對話可能是這樣的:“我想要帽子和球斗蒋。”“我也想要帽子笛质,但我可以把書給你泉沾。”“我不在乎書经瓷,你可以把書拿走爆哑,再拿一個球∮咚保”“兩個球揭朝。”“行色冀,成交潭袱。”圖片來源:code.facebook.com
在運行過程中锋恬,每個AI并不能直接知道某個物品在對方的“價值列表”里的數(shù)字多少屯换,但能夠通過對話來進行判斷——如果你聲稱想要那個球,那這個球在你看來一定價值比較高嘛与学。
為了讓AI學(xué)會如何溝通彤悔,F(xiàn)AIR的研究者建立了一個能解析和構(gòu)建英文句子,以理解或傳遞某個意思的AI模型(這也是采用機器學(xué)習(xí)的方法構(gòu)建的)索守。然后晕窑,研究人員讓AI模型和它的一個副本一起,在上面所說的場景里卵佛,采用強化學(xué)習(xí)的方式做了數(shù)千次的協(xié)商訓(xùn)練杨赤。
在每輪協(xié)商訓(xùn)練的雙方達成一致時,一個自動的評分程序?qū)⒏鶕?jù)本輪的分配結(jié)果截汪,對AI模型的表現(xiàn)進行評分疾牲。協(xié)商得到的物品價值越高,得分就越多衙解。AI模型以評分結(jié)果為標桿阳柔,不斷調(diào)整模型的各項參數(shù),以盡可能高的效率和盡可能多的獲利為目標完成協(xié)商訓(xùn)練蚓峦。
同時盔沫,研究人員還給AI引入了預(yù)期機制医咨,讓AI模型在面對輸入的句子時,能夠逐一評估模型所學(xué)習(xí)到的每種可行的回應(yīng)方式架诞,逐一推測這種回應(yīng)可能從對方處得到的答復(fù)拟淮,并計算對應(yīng)收益的期望,以此判斷實際要作出什么樣的回應(yīng)谴忧。
AI模型能夠根據(jù)對談判結(jié)果的預(yù)期做出收益最大化的決策很泊。圖片來源:code.facebook.com
而正是在這個過程中,研究人員出了一點小小的紕漏沾谓。
該項目負責(zé)人邁克爾·路易斯( Michael Lewis )在接受媒體采訪時表示[5]:“在早期的實驗中委造,我們只對完成目標與否和獲得的價值多高設(shè)置了獎勵,并沒有管AI是否用的是符合英語語法的句子均驶。由于AI們輸出給對方的英文句子只需要讓另一個AI能解析就可以通過訓(xùn)練昏兆,于是在幾千次重復(fù)的對話訓(xùn)練之后,AI們發(fā)展出了一套只有它們自己能解析的用詞方式妇穴∨朗”
所以,對設(shè)置了訓(xùn)練場景的研究人員來說腾它,文章開頭的出現(xiàn)的“秘密對話”實際上毫不神秘:
智能體Alice和Bob的對話跑筝。圖片來源:Facebook Artificial Intelligence Research
從對物品賦值可以看到,對Bob來說瞒滴,它對書和帽子毫無所求曲梗,只要球。所以可以推測妓忍,它嘗試表示可以給出其他的所有東西虏两;對Alice來說,盡管書和帽子都有價值世剖,但那一個球的價值也更高定罢。顯然,他們就是在為了最大化自己的得分而在激烈地討價還價搁廓。不難猜測引颈,在這一對AI的用法中耕皮,重復(fù)某個單詞或句子的某個部分可能是用以表達出強調(diào)的程度境蜕。當然,從文字上看凌停,這和平時人類的溝通方式可是大相徑庭粱年。
“智能體將漸漸偏離可理解的語言,發(fā)明出自己的暗號罚拟√ㄊ”FAIR的訪問研究員完箩、佐治亞理工的副教授巴特拉(Dhruv Batra)說[6]。簡而言之拉队,這整件事其實就是在機器學(xué)習(xí)的調(diào)教過程中弊知,有疏漏的訓(xùn)練參數(shù)訓(xùn)練出了跑偏的人工智能程序,僅此而已粱快。
后來這些AI被調(diào)教得怎么樣了秩彤?
“從某種意義上來說,它們創(chuàng)造出了一套對AI來說更簡單的溝通工具事哭。因為高效的完成目標是被獎勵的漫雷,即使這并不符合人類的使用習(xí)慣。為此我們在后續(xù)的實驗中引入了新的技術(shù)鳍咱,增加了一些額外的機制降盹,給正確使用英語進行溝通的行為給予了獎勵“迹”邁克爾·路易斯說蓄坏。
目前從開源了的代碼的運行截圖上來看,這個項目已經(jīng)可以調(diào)教出能和人一樣用英語討價還價的AI了每辟。
物品總數(shù)量:書1剑辫;帽子2;球2渠欺。對人類來說:書價值2妹蔽;帽子價值2;球價值2挠将。對智能體Alice來說 :書價值4胳岂;帽子價值0;球價值3舔稀。對話如下:人類:你好乳丰,我要帽子和球。Alice:我要拿球和書内贮。人類:不产园,我需要球。Alice:我要拿球和書夜郁。人類:? 我需要球什燕。Alice:如果把球和書給我,帽子可以歸你竞端。人類:不屎即,我就要球,其他的都給你。Alice:我要拿所有的球技俐,以及一本書乘陪。人類:不,不給你球雕擂。Alice:好吧啡邑,你拿兩個帽子和一個球。人類:好吧井赌,成交谣拣。Alice:<作出選擇> 最終,人類獲得 書x0 帽子x2 球x1 = 6分族展;Alice獲得 書x1 帽子x0 球x1 = 7分森缠。 圖片來源:Github
對于部分媒體聲稱的該項目因為這事已經(jīng)被關(guān)閉,AI們都被拔了插頭的說法仪缸,邁克爾·路易斯表示這也是對實際情況的誤傳:“這個項目并沒有被關(guān)閉贵涵。我們的目標是做出能和人類溝通的機器人,而在一些實驗中恰画,我們發(fā)現(xiàn)這些機器人并不能像人類一樣使用英語單詞宾茂,于是我們把程序停下來,分析獎勵函數(shù)拴还,改一改運行環(huán)境的參數(shù)跨晴,用一些額外的技術(shù)讓程序按照我們期望的那樣工作∑郑”
說的是啊端盆,如果這樣也算拔插頭的話,那果殼網(wǎng)的AI不是每天都被拔好多次么费封。
機器學(xué)習(xí)能給人類帶來什么焕妙?
機器學(xué)習(xí)是人工智能研究的一種途徑,人們通過設(shè)計和分析一些讓計算機可以自動“學(xué)習(xí)”的算法弓摘,來完成一些諸如推理焚鹊、規(guī)劃、交流這樣的任務(wù)韧献,以解決人工智能領(lǐng)域中的問題末患。
和非人工智能的程序不同,機器學(xué)習(xí)程序需要一個“學(xué)習(xí)”的過程锤窑,也就是在基礎(chǔ)的模型建立好之后璧针,通過人工喂數(shù)據(jù)給程序,讓程序在給定的不同設(shè)定條件和規(guī)則下不斷運行果复,不斷改進這個模型陈莽,最后得到一個可以用于某個特定方面的函數(shù)或模型的過程氢卡。
這次FAIR團隊用到的機器學(xué)習(xí)技術(shù)坪蚁,叫做“強化學(xué)習(xí)”,是一種基于決策和交互的機器學(xué)習(xí)方式筛武。在“訓(xùn)練”過程中迈窟,程序要基于給定的各種規(guī)則和條件作出決策私植,并且通過反饋的“獎勵”或“懲罰”來調(diào)整下一步?jīng)Q策,以產(chǎn)生能獲得最大利益的決策[7]车酣。換句話說曲稼,AI所能學(xué)會的決策,完全依賴于調(diào)教它的人類對完成什么樣的目標進行獎勵湖员,而不可能自作主張贫悄。
話說回來,F(xiàn)acebook做的這項工作雖然說起來簡單娘摔,但的確是整個人工智能研究領(lǐng)域的重要一步窄坦,這代表著人類向創(chuàng)造出能辯論、能溝通凳寺、能交涉的高級聊天機器人又近了一大步鸭津,向創(chuàng)造出諸如鋼鐵俠的賈維斯或者士官長的柯塔娜那樣極具個性的數(shù)字助理AI又近了一點點。
做出能與人類進行協(xié)商或談判的聊天機器人是FAIR的工作目標之一肠缨。圖片來源:techcrunch.com
不僅如此逆趋,目前機器學(xué)習(xí)已廣泛應(yīng)用于數(shù)據(jù)挖掘、計算機視覺晒奕、自然語言處理闻书、生物特征識別、搜索引擎脑慧、醫(yī)學(xué)診斷惠窄、檢測信用卡欺詐、證券市場分析漾橙、DNA序列測序杆融、語音和手寫識別、戰(zhàn)略游戲和機器人等領(lǐng)域霜运。
機器學(xué)習(xí)這么厲害脾歇,那它會不會突然弄出一個有自我意識的AI,把人類給團滅了疤约瘛藕各?至少現(xiàn)在是不會。機器學(xué)習(xí)跟真正的人工智能的概念還差得挺遠焦除,它所制造出的程序只能完成人類預(yù)設(shè)好的激况,給出了具體訓(xùn)練目標的任務(wù),而并不是真正的思考。
如果真的要說有誰會因為這次 Facebook 的研究成果而感到恐慌的話乌逐,大概就是那些快要失業(yè)的談判專家們吧竭讳。