Science Feb 2018
【計算機科學(xué)】
作者:Matthew Hutson
去年(2017年)养渴,加拿大蒙特利爾大學(xué)(U of M)計算機院的科學(xué)家們急于展示一種新的語音識別算法贝次,他們想把其與由知名科學(xué)家設(shè)計的基準算法進行對比。唯一的問題是:基準算法的源代碼沒有被公開兴猩。研究人員不得不根據(jù)已公開的部分進行重現(xiàn)。但蒙特利爾大學(xué)實驗室的博士生Nan Rosemary Ke說乘盖,他們無法使自己推算的版本與基準算法宣稱的性能相匹配焰檩。“我們嘗試了兩個月订框,但沒有任何進展析苫。”
蓬勃發(fā)展的人工智能(AI)領(lǐng)域正在努力應(yīng)對可重現(xiàn)性危機穿扳,如同10前類似的危機困擾著心理學(xué)衩侥、醫(yī)學(xué)和其他領(lǐng)域。人工智能研究人員發(fā)現(xiàn)許多關(guān)鍵結(jié)果很難被重新驗證矛物,這將引領(lǐng)一種新的研究方法和發(fā)表協(xié)議茫死。Nicolas Rougier表示:“我認為,其他領(lǐng)域的人可能會認為履羞,正因為我們有代碼峦萎,所以可重現(xiàn)性是有一定保證的。他是波爾多的法國國家計算機科學(xué)與自動化研究所的計算神經(jīng)學(xué)家忆首“疲“可是事實并非如此”,上周雄卷,人工智能發(fā)展協(xié)會(AAAI)在路易斯安那州的新奧爾良市舉行了一次會議搓蚪,會議的議程上提到了可重現(xiàn)性,一些團隊解析了這一問題丁鹉,其中一個團隊還提出了緩解這一問題的其他辦法妒潭。
根本問題在于研究者常常不愿意分享他們的源代碼。在這次人工智能發(fā)展協(xié)會召開的會議上揣钦,挪威科技大學(xué)特隆赫姆分校的計算機科學(xué)家奧德.埃里克·甘德森報告了在過去幾年中雳灾,對兩場頂級人工智能大會上發(fā)表的論文中提出的400種算法的調(diào)查結(jié)果。他發(fā)現(xiàn)只有6%的發(fā)言者分享了自己的算法冯凹。只有三分之一的人共享了數(shù)據(jù)谎亩,也只有一半的人分享了“虛擬程序代碼”--受限制的算法摘要。(很多情況下宇姚,在期刊上發(fā)表的人工智能論文中也沒有代碼匈庭,如在《科學(xué)》和《自然》雜志中。)
假使可以獲取并運行原代碼浑劳,它可能也不會盡如人意阱持。在被稱為機器學(xué)習(xí)的人工智能領(lǐng)域,計算機從經(jīng)驗中獲得專業(yè)知識魔熏,而算法的訓(xùn)練數(shù)據(jù)會影響其性能衷咽。Ke覺得正是因為不知道語音識別基準的訓(xùn)練數(shù)據(jù)鸽扁,導(dǎo)致她的團隊試驗失敗∠馄“從一個程序運行到另一個有一定的隨機性桶现,”她說。她又補充說鼎姊,當(dāng)然骡和,如果你“非常非常幸運,可以碰巧運行到一組非常好的數(shù)據(jù)”此蜈〖春幔“大家通常會這么報告●烧裕”
在人工智能發(fā)展協(xié)會(AAAI)的會議上,蒙特利爾麥吉爾大學(xué)計算機的科學(xué)家Peter Henderson演示了試錯學(xué)習(xí)的人工智能跺嗽,其表現(xiàn)不僅對所使用的確切代碼高度敏感战授,而且對開始訓(xùn)練時產(chǎn)生的隨機數(shù)也高度敏感,還有“超參數(shù)”——這些設(shè)置不是算法的核心桨嫁,但會影響算法的學(xué)習(xí)速度植兰。他在不同的條件下運行了幾個這種“強化學(xué)習(xí)”算法,得出截然不同的結(jié)果璃吧。例如楣导,一個虛擬的“半獵豹”——一個運動算法中使用的簡筆圖形——可以在一個測試中學(xué)會沖刺,但在另一個測試只會在地面瞎蹦跶畜挨。Henderson說筒繁,研究人員應(yīng)該記錄更多的關(guān)鍵細節(jié)。他說:“我們正在努力推動這個領(lǐng)域有更好的實驗程序和更好的評估方法巴元≌庇剑”
Henderson的實驗是在一個名為Gym的強化學(xué)習(xí)算法的試驗平臺上進行的,該平臺由加州舊金山的一個非營利組織OpenAI所創(chuàng)建逮刨。OpenAI的計算機科學(xué)家約翰·舒爾曼(John Schulman)幫助創(chuàng)建了Gym呕缭,他說,這有助于標準化實驗修己』肿埽“在Gym之前,很多人都致力于強化學(xué)習(xí)睬愤,但每個人都在為他們的實驗創(chuàng)造各自的環(huán)境片仿,這使得不同論文之間很難比對的結(jié)果,”他說戴涝。
在AAAI會議上滋戳,IBM研究部門展示了另一個協(xié)助復(fù)制的工具:一個可以自動創(chuàng)建未發(fā)布源代碼的系統(tǒng)钻蔑,它可以節(jié)省研究人員幾天或幾周的時間。這是一種人工神經(jīng)網(wǎng)絡(luò)——一種由多層小計算單元組成的機器學(xué)習(xí)算法奸鸯,類似于神經(jīng)元——再重組為其他的神經(jīng)網(wǎng)絡(luò)咪笑。它掃描一篇人工智能研究論文,尋找構(gòu)建神經(jīng)網(wǎng)絡(luò)的圖表或表格娄涩,將這些數(shù)據(jù)解析成層再進行連接窗怒,然后用新的代碼生成網(wǎng)絡(luò)。該工具現(xiàn)在已經(jīng)復(fù)制了數(shù)百個已發(fā)布的人工神經(jīng)網(wǎng)絡(luò)蓄拣,IBM正計劃將它們置于一個開放的在線存儲庫中扬虚。
荷蘭埃因霍溫科技大學(xué)的計算機科學(xué)家Joaquin Vanschoren創(chuàng)建了另一個資源庫作為準服務(wù)器:這個網(wǎng)站名為OpenML。它不僅托管算法球恤,還托管數(shù)據(jù)集以及超過800萬次的實驗及其相關(guān)細節(jié)辜昵。Vanschoren說:“你進行的實驗很大程度都沒有記錄假設(shè)和決定⊙矢”“即很多細節(jié)都沒有被詳細記錄下來堪置。”
心理學(xué)在某種程度上建立了一種支持復(fù)制試驗的學(xué)術(shù)環(huán)境來應(yīng)對可重現(xiàn)性危機张惹,人工智能也開始這么做了舀锨。2015年,Rougier協(xié)助創(chuàng)辦了(ReScience)--一本致力于研究復(fù)制的計算機科學(xué)雜志宛逗。大型神經(jīng)信息處理系統(tǒng)會議已經(jīng)開始在這個網(wǎng)站上鏈接論文的源代碼坎匿。Ke在協(xié)助組織一項“關(guān)于可重現(xiàn)性的挑戰(zhàn)”,這個項目將邀請研究人員嘗試重現(xiàn)論文并提交給即將召開的會議雷激。Ke說替蔬,將近100篇論文正在進行重現(xiàn),研究人員大部分是學(xué)生侥锦,他們的工作會幫助他們獲得學(xué)分进栽。
然而,人工智能研究人員表示恭垦,激勵機制仍與可重現(xiàn)性性無法匹配快毛。他們沒有時間在對每一種情況測試算法,論文中也沒有足夠的篇幅來記錄他們嘗試的每一個超參數(shù)番挺。由于許多沒有同行評價的論文每天都在arXiv的網(wǎng)上發(fā)表唠帝,他們感到了無法快速發(fā)表論文的壓力。許多人不愿意報告失敗的重現(xiàn)性案例玄柏。例如襟衰,在《科學(xué)》雜志(ReScience),迄今為止所有發(fā)表的重現(xiàn)性結(jié)果都是成功的案例粪摘。Rougier說瀑晒,他有一些被告知的失敗實驗绍坝,但其他年輕的研究人員常常不希望被認為是在評價資深的研究人員。這也是Ke不會透露基準的語音識別算法背后的研究人員的名字的原因苔悦。
Gundersen認為這種學(xué)術(shù)環(huán)境需要改變轩褐。“這不是什么面子的事兒玖详,”他說把介。“而是實事求是的事蟋座∞痔撸”
名詞解釋:
Reproducibility--可重現(xiàn)性
可重現(xiàn)性:不同實驗室的不同分析人員用相同分析對同一被測對象測定結(jié)果之間的相對標準偏差。
AAAI-人工智能發(fā)展協(xié)會