[譯] 用于肺部CT肺結節(jié)分類的深度特征學習

題目：用于肺部CT肺結節(jié)分類的深度特征學習

原文鏈接(IEEE)：《Deep feature learning for pulmonary nodule classification in a lung CT》

(轉載請注明出處：【譯】用于肺部CT肺結節(jié)分類的深度特征學習 (zhwhong))

摘要

在這篇論文粉渠，我們提出了一個重要的在肺部CT確定肺結節(jié)的方法渣叛。具體地說饺著，我們設計了一個從固有的原始手工圖片特征中提取抽象信息的審年度神經網絡箫攀。然后我們將深度學習出來的表述和開始的原始圖像特征整合到一個長的特征矢量中。通過使用這個聯(lián)合特征矢量渡嚣，我們訓練了一個分類器梢睛，之前通過了t-test的特征選擇。為了驗證提出的方法是有效的识椰，我們用我們的內部數據集做了實驗绝葡。內部數據集包括3598個肺結節(jié)（惡性：178，良性：3420）腹鹉，它們由一個醫(yī)生手動分割藏畅。在我們的實驗中，我們最高達到了95.5%的準確率功咒，94.4%的敏感率和AUC達i到了0.987愉阎，比與我們競爭的其他方法表現優(yōu)良。

I. 介紹

在世界范圍內力奋，肺癌死亡是最常見的導致死亡的原因之一[1]榜旦。大量的方法被嘗試用來減低肺癌死亡率。我們知道景殷，一旦癌癥在早期被檢測出來溅呢，那么治療會更有效也更有利于我們去克服它。此外滨彻，為了減輕醫(yī)生們由于閱讀大量CT而疲勞造成的誤診藕届，計算機輔助檢測引起了人們很大的興趣。

從臨床角度來看亭饵，大于3mm的結節(jié)一般被稱為肺結節(jié)[2]而更大的結節(jié)很容易變成癌細胞休偶。因此，通過檢測和觀察結節(jié)的診斷篩選是重要的辜羊。為了這一目的踏兜，計算機輔助篩選系統(tǒng)在過去十年被提出词顾，盡管由于它們的低性能而沒有被用于臨床。

最近碱妆，受到深度學習在計算機視覺和語言識別領域的巨大成功的激勵肉盹，很多人努力將這項技術用于醫(yī)療檢測，特別是CT中的結節(jié)檢測疹尾。比如上忍，Roth等人用卷積神經網絡（CNN）[3]，進行結節(jié)檢測[4]纳本。Ciompi等人窍蓝，用CNN進行結節(jié)提取用來識別肺部圍裂結節(jié)[5]。為了提高檢測準確率繁成，他們同時利用了軸吓笙、冠狀面、矢狀位面的信息巾腕。同時面睛，Fakoor等人和Kumar等人，獨立研究通過Stacked AutoEncoder（SAE）[6]進行心臟基因組分類[6]和肺結節(jié)分類[7]尊搬。盡管前述的基于深度學習的方法在他們自己的實驗中也展現了很多成效叁鉴，但他們大多忽略了如周長、圓周毁嗦、集成密度亲茅、中值、偏度狗准、峰值和結節(jié)這樣的形態(tài)信息克锣，這些信息并不能從卷積深度模型中提取出來。在這篇論文腔长，我們提出了用深度模型來尋找潛在的形態(tài)特征袭祟，然后將深度學習到的信息和原始形態(tài)特征相結合。至于深度特征學習捞附，我們是呀那個來Stacked Denosing AutoEncoder（SDAE）[8]巾乳。我們的工作受到了Suk等人工作[11]的啟發(fā)，他們將阿爾茨海默氏病的原始的神經學影像特征和深度學習特征聯(lián)系到了一起鸟召。

II.提出的方法

A.數據集和形態(tài)特征

我們收集了20個病人的CT掃描（男/女：7/13胆绊，年齡：63.5+-7.7）.肺結節(jié)由一個經驗豐富的醫(yī)生手工分割∨纺迹總體上压状，我們有178個惡性和3420個良性結節(jié)（Table 1）.Figure 1給出了肺結節(jié)采樣的樣例，它們內部和之間變化很大，給結節(jié)分類帶來了挑戰(zhàn)种冬。從每個結節(jié)我們提取了96個形態(tài)特征镣丑，即 area, mean Hounsfield Units (HU) 1 , standard deviation,mode, min, max, perimeter, circularity diameter, integrateddensity, median, skewness, kurtosis, raw integrated density,ferret angle, min ferret, aspect, ratio, roundness, solidity,entropy, run length matrix (44 values) [9], and gray-level cooccurrence matrix (32 values) [10].

B.學習高度相關信息

為了更好的利用特征信息，我們用SDAE來發(fā)現形態(tài)特征之間潛在的非線性相關娱两。SDAE的結構是按照等級劃分的方式堆棧（stackong）多個自動編碼器（autoencoder）莺匠。一個AE是一個有一個輸入層一個隱藏層和一個輸出層的多層神經網絡。輸入輸出層神經元的個數由輸入特征x∈R**d即d十兢，而隱藏層神經元的數量可以是任意個趣竣。在AE中，隱藏層（h）和輸出層（o）神經元的值如下得到：

其中Φ(.)是一個非線性sigmoid函數纪挎。其中W和b這樣的參數通過不斷學習這樣隱藏層神經元可以覆蓋輸入特征的值期贫，即x≈o。然而异袄，為了使AE對于不希望的噪音更健壯，我們可以稍稍改動訓練協(xié)議玛臂。實際上烤蜕，在訓練時我們通過增加隨機噪音故意污染原始輸入值，但是訓練模型使輸出層的值和原來的沒有被污染的值接近迹冤。這種模型被稱作“Denosing AutoEncoder”(DAE)[8]讽营。關于autoecnoder的原理

注意隱藏層神經元的值可以被用作輸入特征在新空間的另一表示，不同的唯獨代表了對原始特征的不同聯(lián)系泡徙。通過按等級堆棧許多DAE這樣隱藏單元的值成了下一個更高AE的輸入橱鹏，我們建立了一個深度結構，我們稱之為‘Stacked Denoising AutoEncoder’(SDAE)堪藐。

DAE的一個顯著優(yōu)點是它的參數可以通過非監(jiān)督的方式學習莉兰。所有我們可以利用盡可能多的訓練實例而不管它們的標記信息是否被驗證。這個有利的特征之后可以通過預訓練的方法[11]尋找‘好’的SDAE初始值參數上被利用礁竞。

簡而言之糖荒，一個SDAE首先通過一個非監(jiān)督的方式預訓練然后預訓練的參數值作為初始值來訓練深度神經網絡，通過在SDAE結構上多家一個標簽層模捂。然后我們通過一個監(jiān)督方式微調所有的參數捶朵。在訓練SDAE之后，我們去除最后的隱藏層的輸出狂男，即我們的SDAE標簽層的輸入综看，作為和固有的原始形態(tài)特征高度相關的值。我們最后將原始特征和SDAE學習到的特征通過一個長矢量聯(lián)系在一起岖食，將其作為我們新的增強特征矢量红碑。

C.特征選擇和分類器訓練

通過之前在模式識別領域的工作，我們很好地了解到在分類器選擇千的特征選擇對提升分類器性能是很有幫助的[11]县耽。受他們的工作激勵句喷，我們應用了一個通過特征和種類標簽之間的統(tǒng)計學測試進行特征選擇的方法镣典。實際上，我們對每個特征分別進行了一個簡單的t-test唾琼，當測試的p-value大于預設門檻兄春，我們認為對應的特征沒有提供對分類有用的信息∥荩基于被選擇的特征赶舆，我們最后訓練了一個線性的支持向量機（SVM），它以及在很多應用中證明了它作為一個分類器的效能[12]祭饭。

III.實驗結果

A.實驗設置

我們設計的SDAE有5層芜茵，其中有3層隱藏層。三層隱藏層的神經元數量是300,200,100. 對于SDAE訓練倡蝙，我們使用了一個大小為50的mini-batch DeepLearnToolbox九串。至于AE中的非線性sigmoid函數，我們使用了雙曲正切函數(tanh)寺鸥。為了最好利用我們的數據采樣和DAE訓練的非監(jiān)督特性猪钮，我們使用了我們在預訓練（迭代200次）數據集中的所有樣例，即178個惡性結節(jié)和3420個良性結節(jié)胆建。

需要注意由于良性和惡性訓練樣例的不平衡烤低，我們從3420個良性類型中隨機挑選了200個。在我們的性能評估中笆载，我們只利用178個惡性和200個良性（隨機挑選）結節(jié)進行了五倍交叉驗證扑馁。換一句話，我們將五分之一的樣例放在一邊只用作測試然后用剩下的五分之四樣例凉驻。我們需要強調的是腻要，在微調我們的SDAE和SVM學習中我們用的五分之四樣例和留下的測試樣例毫無關系。

在微調SDAE之后沿侈，我們通過聯(lián)合最后隱藏層的輸出即100個值和原始96維特征得到了一個196維的增強特征矢量闯第。在特征選擇階段，我們將p-value的門檻設置為0.001.最后缀拭，我們的SVM的模型超參數用libSVM庫(Available at https://www.csie.ntu.edu.tw/~cjlin/libsvm/)由一個在空間{2**-5, 2**-4,... ,2**4,2**5}的五倍交叉嵌套驗證決定咳短。為了驗證提出的通過深度學習的特征進行的特征增強是效能，我們把我們的方法和一個只用了原始特征的卷積方法進行了比較蛛淋。需要注意所有其他的對相比較的方法的設置和我們提出的方法是完全一樣的咙好。

B.性能表現

我們使用了四個度量進行性能評測，即準確性褐荷，敏感性勾效，特異性和接受者操作特意曲線下的區(qū)域（AUC）。Figure 1比較了用不同測試單元進行的性能評價AUC的平均值，而其他性能用百分號表示层宫。Original+SDAE特征在每個性能表現都更優(yōu)異杨伙。特別的，準確性和敏感性分別提高了2.1%和3.4%萌腿。

IV.總結

在這篇論文限匣，我們提出來用深度結構去尋找CT掃描的肺結節(jié)分類中潛在的非線性形態(tài)信息。臨床上毁菱，在早起階段找到惡性結節(jié)是十分重要的米死。我們的深度學習特征在分別良性和惡性結節(jié)方面表現了巨大威力，在敏感度方面有了巨大提高贮庞。

Acknowledge

This research was supported by Basic Science Research Program through the National Research Foundation of Korea(NRF) funded by the Ministry of Education (NRF-2015R1C1A1A01052216).The authors gratefully acknowledge technical supports from Biomedical Imaging Infrastructure, Department of Radiology, Asan Medical Center.

Reference

[1] B. W. Stewart and C. P. Wild, editors, World Cancer Report 2014. Lyon,France: International Agency for Research on Cancer, Feb. 2014.

[2] M. K. Gould, J. Fletcher, M. D. Iannettoni, W. R. Lynch, D. E. Midthun,D. P. Naidich, and D. E. Ost, “Evaluation of Patients with Pulmonary Nodules: When is it lung cancer?: ACCP evidence-based clinical practice guidelines, 2ed edition” Chest, Vol. 132, No. 3, pp. 108-130, Sep. 2007.

[3] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, “Gradient-based Learning Applied to Document Recognition,” Proceedings of the IEEE,Vol. 86, No. 11, pp. 2278-2324, Nov. 1998.

[4] H. R. Roth, L. Lu, J. Liu, J. Yao, A. Seff, K. Cherry, L. Kim, and R. M.Summers, “Improving Computer-aided Detection using Convolutional Neural Networks and Random View Aggregation,” arXiv:1505.03046,Sep. 2015.

[5] F. Ciompi, B. de Hoop, S. J. van Riel, K. Chung, E. Th. Scholten, M.Oudkerk, P. A de Jong, M. Prokop, and B. van Ginneken, “Automatic Classification of Pulmonary Peri-Fissural Nodules in Computed Tomography Using an Ensemble of 2D views and a Convolutional Neural Network Out-of-the-Box,” Medical Image Analysis, Vol. 26, No. 1, pp.195-202, Dec. 2015.

[6] R. Fakoor, F. Ladhak, A. Nazi, and M. Huber, “Using Deep Learning to Enhance Cancer Diagnosis and Classification,” Proc. of the ICML Workshop on the Role of Machine Learning in Transforming Healthcare (WHEALTH), Vol 28, June 2013

[7] D. Kumar, A. Wong, and D. A. Clausi, “Lung Nodule Classification Using Deep Features in CT Images,” Proc. 12th Conference on Computer and Robot Vision (CRV), pp. 133-138, June 2015.

[8] P. Vincent, H. Larochelle, I. Lajoie, Y. Bengio, and P. Manzagol,“Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion,” The Journal of Machine Learning Research, Vol. 11, pp. 3371-3408, Mar. 2010.

[9] X. Tang, “Texture Information in Run-length Matrices,” IEEE Transactions on Image Processing, Vol. 7, No. 11, pp.1602-1609, Nov.1998.

[10] R. M. Hatalick, K. Shanmugam, and I. Dinstein, “Textural Features for Image Classificaiton,” IEEE Transactions on Systems, Man and Cybernetics, Vol. 3, No. 6, pp. 610-621, Nov. 1973.

[11] H.-I. Suk, S.-W. Lee, and D. Shen, “Latent Feature Representation with Stacked Auto-Encoder for AD/MCI Diagnosis,” Brain Structure & Function, Vol. 220, No. 2, pp. 841-859, Mar. 2015.

[12] G. E. Hinton and R. R. Salakhutdinov, “Reducing the Dimensionality of Data with Neural Networks,” Science, Vol. 313, No. 5786, pp. 504-507, July 2006.

[13] D. E. Rumelhart, G. E. Hinton, and R. J. Williams, “Learning Representations by Back-propagating Errors,” Nature, Vol. 323, No. 9, pp.533-536, Oct. 1986.

(注：感謝您的閱讀峦筒，希望本文對您有所幫助。如果覺得不錯歡迎分享轉載窗慎，但請先點擊這里獲取授權物喷。本文由版權印提供保護，禁止任何形式的未授權違規(guī)轉載捉邢，謝謝脯丝！)

最后編輯于：2017.12.05 04:18:42

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市伏伐，隨后出現的幾起案子，更是在濱河造成了極大的恐慌晕拆，老刑警劉巖藐翎，帶你破解...
沈念sama閱讀 217,406評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現場離奇詭異实幕，居然都是意外死亡吝镣，警方通過查閱死者的電腦和手機，發(fā)現死者居然都...
沈念sama閱讀 92,732評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門昆庇，熙熙樓的掌柜王于貴愁眉苦臉地迎上來末贾，“玉大人，你說我怎么就攤上這事整吆」澳欤” “怎么了？”我有些...
開封第一講書人閱讀 163,711評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵表蝙，是天一觀的道長拴测。經常有香客問我，道長府蛇，這世上最難降的妖魔是什么集索？我笑而不...
開封第一講書人閱讀 58,380評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上务荆，老公的妹妹穿的比我還像新娘妆距。我一直安慰自己，他們只是感情好函匕，可當我...
茶點故事閱讀 67,432評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布娱据。她就那樣靜靜地躺著，像睡著了一般浦箱。火紅的嫁衣襯著肌膚如雪吸耿。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,301評論 1贊 301
城市分裂傳說
那天酷窥，我揣著相機與錄音咽安，去河邊找鬼。笑死蓬推，一個胖子當著我的面吹牛妆棒，可吹牛的內容都是我干的。我是一名探鬼主播沸伏，決...
沈念sama閱讀 40,145評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼糕珊，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了毅糟？” 一聲冷哼從身側響起红选，我...
開封第一講書人閱讀 39,008評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎姆另，沒想到半個月后喇肋，有當地人在樹林里發(fā)現了一具尸體，經...
沈念sama閱讀 45,443評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡迹辐，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,649評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年蝶防，在試婚紗的時候發(fā)現自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片明吩。...
茶點故事閱讀 39,795評論 1贊 347
活死人
序言：一個原本活蹦亂跳的男人離奇死亡间学，死狀恐怖，靈堂內的尸體忽然破棺而出印荔，到底是詐尸還是另有隱情低葫，我是刑警寧澤，帶...
沈念sama閱讀 35,501評論 5贊 345
?日本核電站爆炸內幕
正文年R本政府宣布躏鱼，位于F島的核電站氮采，受9級特大地震影響，放射性物質發(fā)生泄漏染苛。R本人自食惡果不足惜鹊漠，卻給世界環(huán)境...
茶點故事閱讀 41,119評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一主到、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧躯概，春花似錦登钥、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,731評論 0贊 22
一樁弒父案牧牢，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至姿锭，卻和暖如春塔鳍，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背呻此。一陣腳步聲響...
開封第一講書人閱讀 32,865評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工轮纫，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人焚鲜。一個月前我還...
沈念sama閱讀 47,899評論 2贊 370
代替公主和親
正文我出身青樓掌唾，卻偏偏與公主長得像，于是被迫代替她去往敵國和親忿磅。傳聞我的和親對象是個殘疾皇子糯彬，可洞房花燭夜當晚...
茶點故事閱讀 44,724評論 2贊 354