OpenAI發(fā)布「塊稀疏」GPU內核：實現(xiàn)文本情感分析與圖像生成建模當前最優(yōu)水平

姓名：張萌? ? ? ? ? 學號17021211113

轉自：https://mp.weixin.qq.com/s/O-NDsFs6AOwl43LyevXtzg

【嵌牛導讀】：近日银酬，OpenAI 在其一篇題為《Block-Sparse GPU Kernels》的博文中發(fā)布了一個低級別神經網絡架構的高度優(yōu)化 GPU 內核，并且這個神經網絡帶有「塊稀疏」（block-sparse）權重筐钟。根據已選的稀疏性揩瞪，這些內核可以比 cuBLAS 或 cuSPARSE 運行快幾個數量級，并在文本情感分析與文本盗棵、圖像生成建模方面取得了當前最優(yōu)結果壮韭。

【嵌牛鼻子】:圖像生成建模

【嵌牛提問】：這些內核在文本情感分析與文本、圖像生成建模方面有什么進展纹因？

【嵌牛正文】：近日喷屋，OpenAI 在其一篇題為《Block-Sparse GPU Kernels》的博文中發(fā)布了一個低級別神經網絡架構的高度優(yōu)化 GPU 內核，并且這個神經網絡帶有「塊稀疏」（block-sparse）權重瞭恰。根據已選的稀疏性屯曹，這些內核可以比 cuBLAS 或 cuSPARSE 運行快幾個數量級，并在文本情感分析與文本惊畏、圖像生成建模方面取得了當前最優(yōu)結果恶耽。機器之心對博文進行了編譯，GitHub 鏈接及論文摘要請見文中颜启。

GitHub 地址：https://github.com/openai/blocksparse

論文地址：https://s3-us-west-2.amazonaws.com/openai-assets/blocksparse/blocksparsepaper.pdf

深度學習模型架構和算法的發(fā)展在很大程度上受限于基本操作的高效 GPU 實現(xiàn)的可用性偷俭。這其中的一個問題是缺乏稀疏線性操作的高效 GPU 實現(xiàn)，它也正是今天我們發(fā)布的內容缰盏，以及用其實現(xiàn)一些稀疏模式的初步結果涌萤。這些初步結果很有潛在價值但還存在不確定性，因此我們想邀請社區(qū)加入進來口猜，共同解決這一難題负溪。

密集層（左）可由寬而稀疏的層（中）或者深而稀疏的層（右）替代，并同時近似地保持計算時間济炎。

與密集權重矩陣相反川抡，稀疏權重矩陣具有大量為零的項目。稀疏權重矩陣作為模型的構建模塊很有吸引力须尚，因為矩陣乘法和稀疏塊卷積的計算成本僅與非零塊的數量成比例崖堤。例如，稀疏使得某些神經網絡的訓練成為可能耐床，這些神經網絡比給定相同參數和計算預算的其它網絡更寬倘感、更深，例如具有數萬個隱藏單元的 LSTM（目前訓練的最大的 LSTM 只有數千個隱藏單元）咙咽。

??????????????????????????????????????????????????????????????????????????? 內核

密集權重矩陣（左）和塊稀疏（中）權重矩陣的可視化老玛，其中白色代表零值權重。

內核允許在全連接層和卷積層高效地使用塊稀疏權重（如上所示）。對于卷積層蜡豹，內核允許輸入和輸出特征維度的稀疏性麸粮；連接性在空間維度上不受影響。稀疏性是在塊的層面被定義的（如上右圖所示）镜廉，并已經優(yōu)化為 8x8（本實例中）弄诲、 16x16 或 32x32 的塊大小。在塊的層面上娇唯，稀疏性模式是完全可配置的齐遵。由于內核跳過零值塊的計算，所以計算成本只與非零權重的數量成正比塔插，而不是輸入/輸出特征的數量梗摇。存儲參數的成本也只與非零權重的數量成正比。

不同級別的稀疏性相對于 cuBLAS 的加速效果想许，其使用了寬狀態(tài)（12288 個隱藏單元）伶授、32x32 的塊大小和 32 的批尺寸。該對比實驗使用英偉達 Titan X Pascal GPU 和 CUDA 8 完成流纹。和 cuSPARSE 對比的加速效果更佳糜烹。

使用稀疏內核

以下是在 TensorFlow 中進行稀疏矩陣乘法運算的示例代碼：

小世界（Small-World）LSTM

塊稀疏內核的一個很有趣的應用是用于創(chuàng)建小世界（small-world）神經網絡。小世界圖的連接方式是圖中的任意兩個節(jié)點之間僅通過少量幾步就能連接漱凝，即使圖中有數百萬個節(jié)點疮蹦。我們實現(xiàn)小世界連接的動機是，即使具有高度的稀疏度茸炒，我們仍然希望信息在網絡中能快速地傳播挚币。大腦中的連接模式就是小世界的，這使我們好奇同樣的性質能不能用于提高 LSTM 的性能扣典。我們使用小世界稀疏連接高效地訓練了擁有大約兩萬個隱藏單元（與擁有相似參數數量的密集網絡相比具有 5 倍的寬度）的 LSTM，提升了文本生成建模和半監(jiān)督情緒分類的結果慎玖，詳情參見我們的論文贮尖。

在小世界圖中，小世界圖的連接方式是圖中的任意兩個節(jié)點之間僅通過少量幾步就能連接趁怔，即使圖中有數百萬個節(jié)點湿硝。以上動圖展示了一個二維 Watts-Strogatz 小世界圖上的中心節(jié)點（像素）的激活擴散現(xiàn)象（隨機平滑灰度僅僅是為了審美效果）。在這個圖中润努，節(jié)點之間的平均路徑長度小于 5关斜，和我們在 LSTM 實驗中使用的 Barabasi-Albert 圖相似。

情緒表征學習

通過使用在我們的情緒神經實驗（Unsupervised Sentiment Neuron铺浇，https://blog.openai.com/unsupervised-sentiment-neuron/）中的設置痢畜，我們使用近似相等的參數數量訓練 LSTM，并比較了使用密集權重矩陣的模型和一個塊稀疏的變體。稀疏模型在所有的情緒數據集上的性能都超越了相對的密集模型丁稀。我們的稀疏模型將在文檔級 IMDB 數據集上的當前最佳性能從 5.91% 誤差率（Miyato 等,2016）降低到了 5.01%吼拥。相對于我們之前的結果（Unsupervised Sentiment Neuron，僅在短句級數據集上獲得最佳結果），這個提升是很有潛在價值的。

在密集特征上訓練的線性模型和稀疏生成模型的情緒分類錯誤率（%）秃臣，兩者擁有近似相等的參數總數般贼。

壓縮結果

通過使用稀疏和寬的 LSTM，在我們實驗中的每個特征占用的比特數從 1.059 下降到了 1.048（在相等參數數量的前提下喊递，即大約 1 億個參數）。擁有塊稀疏線性層的架構也可以提高相對于使用密集連接線性層的結果。我們對在 CIFAR-10 自然圖像上訓練的 PixelCNN++模型做了一個簡單的修改敛助。用稀疏內核替代了常規(guī)的 2D 卷積核，同時增加網絡深度棘捣，但保持其它超參數不變辜腺，使每個維度占用的比特數從 2.92 下降到 2.90，達到了在該數據集上的當前最佳乍恐。

研究方向

我們在這里提幾個對未來研究的建議评疗。

大多數神經網絡的權重（連接）在訓練完成之后都可以修剪掉。如果能結合剪枝技術和我們的稀疏內核茵烈，能獲得怎樣的加速效果呢百匆？

在生物大腦中，除了連接強度以外呜投，網絡的稀疏結構部分地在成長過程中確定加匈。是否可以在人工神經網絡中實現(xiàn)類似的行為，即不僅將梯度用于學習連接強度仑荐，還用于尋找最優(yōu)的稀疏結構雕拼。最新的一篇論文提出了一種方法用于學習塊稀疏 RNN（https://arxiv.org/abs/1711.02782）。我們近日也提出了一種算法用于在神經網絡中進行 L0 正則化粘招，可用于實現(xiàn)這一目標啥寇。

我們訓練了擁有成千上萬個隱藏單元的 LSTM，可以更好地處理文本洒扎。更一般地說辑甜，稀疏層使得訓練擁有大型權重矩陣（但參數數量、計算開銷和相對的密集模型相等）的模型成為可能袍冷。這種模型能為哪些領域帶來顯著的進步呢磷醋？

論文：GPU Kernels for Block-SparseWeights

論文鏈接：https://s3-us-west-2.amazonaws.com/openai-assets/blocksparse/blocksparsepaper.pdf

摘要：我們正在發(fā)布一個低級別神經網絡架構（帶有塊稀疏（block-sparse）權重）的高度優(yōu)化 GPU 內核，它允許在權重矩陣中帶有靈活可配置的塊稀疏性模式的線性層（包括卷積層）的高效評估與微分胡诗。我們發(fā)現(xiàn)根據已選稀疏性邓线，這些內核可以比 cuBLAS 或 cuSPARSE 運行快幾個數量級淌友。我們借助這些內核取得了文本情感分析與文本、圖像生成建模方面的當前最優(yōu)結果褂痰。通過公開發(fā)布這些內核亩进，我們希望可以促進模型和算法設計的進一步發(fā)展。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末缩歪，一起剝皮案震驚了整個濱河市归薛，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌匪蝙，老刑警劉巖主籍，帶你破解...
沈念sama閱讀 206,968評論 6贊 482
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異逛球，居然都是意外死亡千元，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,601評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門颤绕，熙熙樓的掌柜王于貴愁眉苦臉地迎上來幸海，“玉大人，你說我怎么就攤上這事奥务∥锒溃” “怎么了？”我有些...
開封第一講書人閱讀 153,220評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵氯葬，是天一觀的道長挡篓。經常有香客問我，道長帚称，這世上最難降的妖魔是什么官研？我笑而不...
開封第一講書人閱讀 55,416評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮闯睹，結果婚禮上戏羽，老公的妹妹穿的比我還像新娘。我一直安慰自己楼吃，他們只是感情好始花，可當我...
茶點故事閱讀 64,425評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著所刀，像睡著了一般。火紅的嫁衣襯著肌膚如雪捞挥。梳的紋絲不亂的頭發(fā)上浮创，一...
開封第一講書人閱讀 49,144評論 1贊 285
城市分裂傳說
那天，我揣著相機與錄音砌函，去河邊找鬼斩披。笑死溜族，一個胖子當著我的面吹牛，可吹牛的內容都是我干的垦沉。我是一名探鬼主播煌抒，決...
沈念sama閱讀 38,432評論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼厕倍！你這毒婦竟也來了寡壮？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 37,088評論 0贊 261
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤讹弯，失蹤者是張志新（化名）和其女友劉穎况既，沒想到半個月后，有當地人在樹林里發(fā)現(xiàn)了一具尸體组民，經...
沈念sama閱讀 43,586評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡棒仍，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 36,028評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了臭胜。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片莫其。...
茶點故事閱讀 38,137評論 1贊 334
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖耸三，靈堂內的尸體忽然破棺而出乱陡，到底是詐尸還是另有隱情，我是刑警寧澤吕晌，帶...
沈念sama閱讀 33,783評論 4贊 324
?日本核電站爆炸內幕
正文年R本政府宣布蛋褥，位于F島的核電站，受9級特大地震影響睛驳，放射性物質發(fā)生泄漏烙心。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 39,343評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一乏沸、第九天我趴在偏房一處隱蔽的房頂上張望淫茵。院中可真熱鬧，春花似錦蹬跃、人聲如沸匙瘪。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,333評論 0贊 19
一樁弒父案蝶缀，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽丹喻。三九已至，卻和暖如春翁都，著一層夾襖步出監(jiān)牢的瞬間碍论，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,559評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工柄慰，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留鳍悠，地道東北人税娜。一個月前我還...
沈念sama閱讀 45,595評論 2贊 355
代替公主和親
正文我出身青樓，卻偏偏與公主長得像藏研，于是被迫代替她去往敵國和親敬矩。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 42,901評論 2贊 345

OpenAI發(fā)布「塊稀疏」GPU內核：實現(xiàn)文本情感分析與圖像生成建模當前最優(yōu)水平

推薦閱讀更多精彩內容