【譯作】人工智能面臨可重現(xiàn)性危機

Science Feb 2018

【計算機科學(xué)】

作者:Matthew Hutson

去年(2017年)养渴,加拿大蒙特利爾大學(xué)(U of M)計算機院的科學(xué)家們急于展示一種新的語音識別算法贝次,他們想把其與由知名科學(xué)家設(shè)計的基準算法進行對比。唯一的問題是:基準算法的源代碼沒有被公開兴猩。研究人員不得不根據(jù)已公開的部分進行重現(xiàn)。但蒙特利爾大學(xué)實驗室的博士生Nan Rosemary Ke說乘盖,他們無法使自己推算的版本與基準算法宣稱的性能相匹配焰檩。“我們嘗試了兩個月订框,但沒有任何進展析苫。”

蓬勃發(fā)展的人工智能(AI)領(lǐng)域正在努力應(yīng)對可重現(xiàn)性危機穿扳,如同10前類似的危機困擾著心理學(xué)衩侥、醫(yī)學(xué)和其他領(lǐng)域。人工智能研究人員發(fā)現(xiàn)許多關(guān)鍵結(jié)果很難被重新驗證矛物,這將引領(lǐng)一種新的研究方法和發(fā)表協(xié)議茫死。Nicolas Rougier表示:“我認為,其他領(lǐng)域的人可能會認為履羞,正因為我們有代碼峦萎,所以可重現(xiàn)性是有一定保證的。他是波爾多的法國國家計算機科學(xué)與自動化研究所的計算神經(jīng)學(xué)家忆首“疲“可是事實并非如此”,上周雄卷,人工智能發(fā)展協(xié)會(AAAI)在路易斯安那州的新奧爾良市舉行了一次會議搓蚪,會議的議程上提到了可重現(xiàn)性,一些團隊解析了這一問題丁鹉,其中一個團隊還提出了緩解這一問題的其他辦法妒潭。

根本問題在于研究者常常不愿意分享他們的源代碼。在這次人工智能發(fā)展協(xié)會召開的會議上揣钦,挪威科技大學(xué)特隆赫姆分校的計算機科學(xué)家奧德.埃里克·甘德森報告了在過去幾年中雳灾,對兩場頂級人工智能大會上發(fā)表的論文中提出的400種算法的調(diào)查結(jié)果。他發(fā)現(xiàn)只有6%的發(fā)言者分享了自己的算法冯凹。只有三分之一的人共享了數(shù)據(jù)谎亩,也只有一半的人分享了“虛擬程序代碼”--受限制的算法摘要。(很多情況下宇姚,在期刊上發(fā)表的人工智能論文中也沒有代碼匈庭,如在《科學(xué)》和《自然》雜志中。)

假使可以獲取并運行原代碼浑劳,它可能也不會盡如人意阱持。在被稱為機器學(xué)習(xí)的人工智能領(lǐng)域,計算機從經(jīng)驗中獲得專業(yè)知識魔熏,而算法的訓(xùn)練數(shù)據(jù)會影響其性能衷咽。Ke覺得正是因為不知道語音識別基準的訓(xùn)練數(shù)據(jù)鸽扁,導(dǎo)致她的團隊試驗失敗∠馄“從一個程序運行到另一個有一定的隨機性桶现,”她說。她又補充說鼎姊,當(dāng)然骡和,如果你“非常非常幸運,可以碰巧運行到一組非常好的數(shù)據(jù)”此蜈〖春幔“大家通常會這么報告●烧裕”

在人工智能發(fā)展協(xié)會(AAAI)的會議上,蒙特利爾麥吉爾大學(xué)計算機的科學(xué)家Peter Henderson演示了試錯學(xué)習(xí)的人工智能跺嗽,其表現(xiàn)不僅對所使用的確切代碼高度敏感战授,而且對開始訓(xùn)練時產(chǎn)生的隨機數(shù)也高度敏感,還有“超參數(shù)”——這些設(shè)置不是算法的核心桨嫁,但會影響算法的學(xué)習(xí)速度植兰。他在不同的條件下運行了幾個這種“強化學(xué)習(xí)”算法,得出截然不同的結(jié)果璃吧。例如楣导,一個虛擬的“半獵豹”——一個運動算法中使用的簡筆圖形——可以在一個測試中學(xué)會沖刺,但在另一個測試只會在地面瞎蹦跶畜挨。Henderson說筒繁,研究人員應(yīng)該記錄更多的關(guān)鍵細節(jié)。他說:“我們正在努力推動這個領(lǐng)域有更好的實驗程序和更好的評估方法巴元≌庇剑”

Henderson的實驗是在一個名為Gym的強化學(xué)習(xí)算法的試驗平臺上進行的,該平臺由加州舊金山的一個非營利組織OpenAI所創(chuàng)建逮刨。OpenAI的計算機科學(xué)家約翰·舒爾曼(John Schulman)幫助創(chuàng)建了Gym呕缭,他說,這有助于標準化實驗修己』肿埽“在Gym之前,很多人都致力于強化學(xué)習(xí)睬愤,但每個人都在為他們的實驗創(chuàng)造各自的環(huán)境片仿,這使得不同論文之間很難比對的結(jié)果,”他說戴涝。

在AAAI會議上滋戳,IBM研究部門展示了另一個協(xié)助復(fù)制的工具:一個可以自動創(chuàng)建未發(fā)布源代碼的系統(tǒng)钻蔑,它可以節(jié)省研究人員幾天或幾周的時間。這是一種人工神經(jīng)網(wǎng)絡(luò)——一種由多層小計算單元組成的機器學(xué)習(xí)算法奸鸯,類似于神經(jīng)元——再重組為其他的神經(jīng)網(wǎng)絡(luò)咪笑。它掃描一篇人工智能研究論文,尋找構(gòu)建神經(jīng)網(wǎng)絡(luò)的圖表或表格娄涩,將這些數(shù)據(jù)解析成層再進行連接窗怒,然后用新的代碼生成網(wǎng)絡(luò)。該工具現(xiàn)在已經(jīng)復(fù)制了數(shù)百個已發(fā)布的人工神經(jīng)網(wǎng)絡(luò)蓄拣,IBM正計劃將它們置于一個開放的在線存儲庫中扬虚。

荷蘭埃因霍溫科技大學(xué)的計算機科學(xué)家Joaquin Vanschoren創(chuàng)建了另一個資源庫作為準服務(wù)器:這個網(wǎng)站名為OpenML。它不僅托管算法球恤,還托管數(shù)據(jù)集以及超過800萬次的實驗及其相關(guān)細節(jié)辜昵。Vanschoren說:“你進行的實驗很大程度都沒有記錄假設(shè)和決定⊙矢”“即很多細節(jié)都沒有被詳細記錄下來堪置。”

心理學(xué)在某種程度上建立了一種支持復(fù)制試驗的學(xué)術(shù)環(huán)境來應(yīng)對可重現(xiàn)性危機张惹,人工智能也開始這么做了舀锨。2015年,Rougier協(xié)助創(chuàng)辦了(ReScience)--一本致力于研究復(fù)制的計算機科學(xué)雜志宛逗。大型神經(jīng)信息處理系統(tǒng)會議已經(jīng)開始在這個網(wǎng)站上鏈接論文的源代碼坎匿。Ke在協(xié)助組織一項“關(guān)于可重現(xiàn)性的挑戰(zhàn)”,這個項目將邀請研究人員嘗試重現(xiàn)論文并提交給即將召開的會議雷激。Ke說替蔬,將近100篇論文正在進行重現(xiàn),研究人員大部分是學(xué)生侥锦,他們的工作會幫助他們獲得學(xué)分进栽。

然而,人工智能研究人員表示恭垦,激勵機制仍與可重現(xiàn)性性無法匹配快毛。他們沒有時間在對每一種情況測試算法,論文中也沒有足夠的篇幅來記錄他們嘗試的每一個超參數(shù)番挺。由于許多沒有同行評價的論文每天都在arXiv的網(wǎng)上發(fā)表唠帝,他們感到了無法快速發(fā)表論文的壓力。許多人不愿意報告失敗的重現(xiàn)性案例玄柏。例如襟衰,在《科學(xué)》雜志(ReScience),迄今為止所有發(fā)表的重現(xiàn)性結(jié)果都是成功的案例粪摘。Rougier說瀑晒,他有一些被告知的失敗實驗绍坝,但其他年輕的研究人員常常不希望被認為是在評價資深的研究人員。這也是Ke不會透露基準的語音識別算法背后的研究人員的名字的原因苔悦。

Gundersen認為這種學(xué)術(shù)環(huán)境需要改變轩褐。“這不是什么面子的事兒玖详,”他說把介。“而是實事求是的事蟋座∞痔撸”


名詞解釋:

Reproducibility--可重現(xiàn)性

可重現(xiàn)性:不同實驗室的不同分析人員用相同分析對同一被測對象測定結(jié)果之間的相對標準偏差。

AAAI-人工智能發(fā)展協(xié)會

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末向臀,一起剝皮案震驚了整個濱河市巢墅,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌券膀,老刑警劉巖砂缩,帶你破解...
    沈念sama閱讀 212,816評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異三娩,居然都是意外死亡,警方通過查閱死者的電腦和手機妹懒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,729評論 3 385
  • 文/潘曉璐 我一進店門雀监,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人眨唬,你說我怎么就攤上這事会前。” “怎么了匾竿?”我有些...
    開封第一講書人閱讀 158,300評論 0 348
  • 文/不壞的土叔 我叫張陵瓦宜,是天一觀的道長。 經(jīng)常有香客問我岭妖,道長临庇,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,780評論 1 285
  • 正文 為了忘掉前任昵慌,我火速辦了婚禮假夺,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘斋攀。我一直安慰自己已卷,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,890評論 6 385
  • 文/花漫 我一把揭開白布淳蔼。 她就那樣靜靜地躺著侧蘸,像睡著了一般裁眯。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上讳癌,一...
    開封第一講書人閱讀 50,084評論 1 291
  • 那天穿稳,我揣著相機與錄音,去河邊找鬼析桥。 笑死司草,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的泡仗。 我是一名探鬼主播埋虹,決...
    沈念sama閱讀 39,151評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼娩怎!你這毒婦竟也來了搔课?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,912評論 0 268
  • 序言:老撾萬榮一對情侶失蹤截亦,失蹤者是張志新(化名)和其女友劉穎爬泥,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體崩瓤,經(jīng)...
    沈念sama閱讀 44,355評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡袍啡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,666評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了却桶。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片境输。...
    茶點故事閱讀 38,809評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖颖系,靈堂內(nèi)的尸體忽然破棺而出嗅剖,到底是詐尸還是另有隱情,我是刑警寧澤嘁扼,帶...
    沈念sama閱讀 34,504評論 4 334
  • 正文 年R本政府宣布信粮,位于F島的核電站,受9級特大地震影響趁啸,放射性物質(zhì)發(fā)生泄漏强缘。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 40,150評論 3 317
  • 文/蒙蒙 一莲绰、第九天 我趴在偏房一處隱蔽的房頂上張望欺旧。 院中可真熱鬧,春花似錦蛤签、人聲如沸辞友。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽称龙。三九已至留拾,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間鲫尊,已是汗流浹背痴柔。 一陣腳步聲響...
    開封第一講書人閱讀 32,121評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留疫向,地道東北人咳蔚。 一個月前我還...
    沈念sama閱讀 46,628評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像搔驼,于是被迫代替她去往敵國和親谈火。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,724評論 2 351

推薦閱讀更多精彩內(nèi)容