本月,谷歌逼走了一位著名的人工智能倫理研究人員扰她,因為她對公司讓她撤回一篇研究論文表示不滿兽掰。該論文指出了語言處理人工智能的風(fēng)險,這種人工智能用于谷歌搜索和其他文本分析產(chǎn)品中徒役。其中的風(fēng)險包括開發(fā)這類人工智能技術(shù)所帶來的巨大碳足跡孽尽。據(jù)一些人估計,訓(xùn)練一個人工智能模型所產(chǎn)生的碳排放忧勿,相當(dāng)于制造和駕駛五輛汽車在其一生中所需要的碳排放杉女。
本文作者是一名研究和開發(fā)AI模型的研究人員,對AI研究中暴漲的能源和財務(wù)成本非常熟悉鸳吸。為什么AI模型會變得如此耗電熏挎,與傳統(tǒng)的數(shù)據(jù)中心計算有什么不同?本文將會探討一下晌砾。
今天的培訓(xùn)是效率低下
在數(shù)據(jù)中心完成的傳統(tǒng)數(shù)據(jù)處理工作包括視頻流坎拐、電子郵件和社交媒體。AI的計算量更大,因為它需要閱讀大量的數(shù)據(jù)廉白,直到學(xué)會理解這些數(shù)據(jù)个初。與人的學(xué)習(xí)方式相比乖寒,這種訓(xùn)練的效率非常低猴蹂。現(xiàn)代人工智能使用的是人工神經(jīng)網(wǎng)絡(luò),它是模擬人腦神經(jīng)元的數(shù)學(xué)計算楣嘁。每個神經(jīng)元與鄰居的連接強(qiáng)度是網(wǎng)絡(luò)的一個參數(shù)磅轻,稱為權(quán)重。為了學(xué)習(xí)如何理解語言逐虚,網(wǎng)絡(luò)從隨機(jī)權(quán)重開始聋溜,并調(diào)整它們,直到輸出與正確答案一致叭爱。
訓(xùn)練語言網(wǎng)絡(luò)的一個常見方法是撮躁,從維基百科和新聞機(jī)構(gòu)等網(wǎng)站上給它輸入大量的文本,其中一些單詞被掩蓋掉买雾,然后讓它猜測被掩蓋掉的單詞把曼。一個例子是 "我的狗很可愛","可愛 "這個詞被掩蓋掉了漓穿。一開始嗤军,模型會把它們?nèi)颗e,但是晃危,經(jīng)過多輪調(diào)整后叙赚,連接權(quán)重開始變化,并在數(shù)據(jù)中發(fā)現(xiàn)了模式僚饭,網(wǎng)絡(luò)最終變得準(zhǔn)確震叮。
最近的一個名為 "變形金剛雙向編碼器表示"(BERT)的模型使用了33億個英文書籍和維基百科文章中的單詞。而且鳍鸵,在訓(xùn)練過程中苇瓣,BERT對這個數(shù)據(jù)集的閱讀不是一次,而是40次权纤。相比之下钓简,一個普通的學(xué)說話的孩子在5歲前可能會聽到4500萬個單詞,比BERT少3000倍汹想。
尋找合適的結(jié)構(gòu)
讓語言模型的構(gòu)建成本更高的是外邓,這個訓(xùn)練過程在開發(fā)過程中會發(fā)生很多次。這是因為研究人員希望找到網(wǎng)絡(luò)的最佳結(jié)構(gòu)--有多少神經(jīng)元古掏,神經(jīng)元之間有多少連接损话,學(xué)習(xí)過程中參數(shù)的變化速度應(yīng)該有多快等等。他們嘗試的組合越多,網(wǎng)絡(luò)達(dá)到高精度的機(jī)會就越大丧枪。相比之下光涂,人類的大腦不需要找到一個最佳結(jié)構(gòu)--它們自帶一個經(jīng)過進(jìn)化磨練的預(yù)建結(jié)構(gòu)。
隨著公司和學(xué)術(shù)界在人工智能領(lǐng)域的競爭拧烦,人們面臨的壓力是如何在技術(shù)狀態(tài)上進(jìn)行改進(jìn)忘闻。即使在機(jī)器翻譯等困難任務(wù)上實現(xiàn)1%的準(zhǔn)確性改進(jìn),也被認(rèn)為是重要的恋博,并會帶來良好的宣傳和更好的產(chǎn)品齐佳。但為了獲得這1%的改進(jìn),一個研究者可能要對模型進(jìn)行數(shù)千次訓(xùn)練债沮,每次都用不同的結(jié)構(gòu)炼吴,直到找到最好的模型。
馬薩諸塞大學(xué)阿默斯特分校的研究人員通過測量訓(xùn)練過程中常用硬件的功耗疫衩,估算了開發(fā)人工智能語言模型的能源成本硅蹦。他們發(fā)現(xiàn),訓(xùn)練一次 BERT 的碳足跡相當(dāng)于一名乘客在紐約和舊金山之間飛一個來回闷煤。然而童芹,通過使用不同的結(jié)構(gòu)進(jìn)行搜索--也就是說,通過使用略微不同數(shù)量的神經(jīng)元曹傀、連接和其他參數(shù)對數(shù)據(jù)進(jìn)行多次訓(xùn)練辐脖,成本變成了相當(dāng)于315名乘客,或者整架747飛機(jī)的成本皆愉。
更大更熱
AI模型也比它們需要的大得多嗜价,而且每年都在增長。一個類似于 BERT 的最新語言模型幕庐,叫做 GPT-2久锥,它的網(wǎng)絡(luò)中有 15 億個權(quán)重。GPT-3异剥,今年因為其高準(zhǔn)確度而引起轟動瑟由,它有1750億個權(quán)重。
研究人員發(fā)現(xiàn)冤寿,擁有更大的網(wǎng)絡(luò)會帶來更好的準(zhǔn)確性歹苦,即使最終只有一小部分網(wǎng)絡(luò)是有用的。類似的事情也發(fā)生在兒童的大腦中督怜,當(dāng)神經(jīng)元連接首先被添加殴瘦,然后減少,但生物大腦比計算機(jī)更節(jié)能
AI模型是在專門的硬件上進(jìn)行訓(xùn)練的号杠,比如圖形處理器單元蚪腋,它們比傳統(tǒng)的CPU消耗更多的電力丰歌。如果你擁有一臺游戲筆記本電腦,它可能有一個這樣的圖形處理器單元屉凯,以創(chuàng)建高級圖形立帖,例如,玩Minecraft RTX悠砚。你可能也會注意到晓勇,它們產(chǎn)生的熱量比普通筆記本電腦多得多。
所有這些都意味著哩簿,開發(fā)高級人工智能模型正在增加大量的碳足跡宵蕉。除非我們改用100%的可再生能源酝静,否則人工智能的進(jìn)步可能會與減少溫室氣體排放和減緩氣候變化的目標(biāo)背道而馳节榜。開發(fā)的財務(wù)成本也變得如此之高,以至于只有少數(shù)選定的實驗室能夠負(fù)擔(dān)得起别智,而他們將成為制定什么樣的人工智能模型得到開發(fā)的議程的人宗苍。
事半功倍
這對人工智能研究的未來意味著什么?事情可能并不像看起來那么暗淡薄榛。隨著更高效的訓(xùn)練方法被發(fā)明出來讳窟,訓(xùn)練的成本可能會下降。同樣敞恋,雖然數(shù)據(jù)中心的能源使用被預(yù)測會在近幾年爆炸式增長丽啡,但由于數(shù)據(jù)中心效率的提高,更高效的硬件和冷卻硬猫,這種情況并沒有發(fā)生补箍。
訓(xùn)練模型的成本和使用模型的成本之間也有一個權(quán)衡,所以在訓(xùn)練的時候花費更多的精力來得出一個更小的模型啸蜜,實際上可能會讓使用模型的成本更低坑雅。因為一個模型在它的一生中會被使用很多次,這就會增加大量的能源節(jié)約衬横。
在實驗室的研究中裹粤,我們一直在研究如何通過共享權(quán)重,或者在網(wǎng)絡(luò)的多個部分使用相同的權(quán)重來使AI模型變得更小蜂林。我們稱這些網(wǎng)絡(luò)為shapshifter網(wǎng)絡(luò)遥诉,因為一組小的權(quán)重可以被重新配置成任何形狀或結(jié)構(gòu)的大網(wǎng)絡(luò)。其他研究人員已經(jīng)表明噪叙,在相同的訓(xùn)練時間內(nèi)矮锈,權(quán)重共享具有更好的性能。
展望未來构眯,人工智能界應(yīng)該在開發(fā)節(jié)能的訓(xùn)練方案上投入更多愕难。否則,就有可能讓人工智能被少數(shù)有能力設(shè)定議程的人所主導(dǎo),包括開發(fā)什么樣的模型猫缭,用什么樣的數(shù)據(jù)來訓(xùn)練它們葱弟,以及模型的用途。