這篇主要介紹Kaggle的第二屆年度數(shù)據(jù)科學競賽:Transforming How We Diagnose Heart Disease。關(guān)于Kaggle平臺本身的相關(guān)內(nèi)容布卡,可以參考:[Kaggle] 數(shù)據(jù)建模分析與競賽平臺介紹获诈。
Kaggle除了作為平臺來幫助組織者們舉辦數(shù)據(jù)分析比賽之外授滓,其本身從2014年開始每年也會和Booz Allen Hamilton(一家著名的咨詢公司)舉辦一次年度的數(shù)據(jù)分析競賽Annual Data Science Bowl怒坯,從名字上來看就有點類似Super Bowl的意味忌愚,所以說也相當于是數(shù)據(jù)科學的一大年度盛事吧揩抡。每次比賽從當年12月開始一直持續(xù)到第二年的3月份户侥,總共三個月的時間。
第一屆Assessing Ocean Health at a Massive Speed & Scale峦嗤,要求搭建一個圖像識別系統(tǒng)來處理由水下圖像傳感器收集的微觀高像素照片蕊唐,以分析海水中浮游生物的種類和數(shù)量;第二屆Transforming How We Diagnose Heart Disease烁设,要求搭建一個系統(tǒng)替梨,通過處理超過1000個患者的心臟核磁共振成像(MRI)來估計患者的舒張壓和收縮壓,以此來幫助診斷心臟病署尤。
這里介紹的是第二屆比賽的相關(guān)內(nèi)容耙替。
Task Description
人體的一次心跳循環(huán)包括三個過程:收縮Systole—>舒張Diastole—>收縮Systole。通過測量一次心跳中收縮末期(End-Systolic Volumes)和舒張末期容積(End-Diastole Volumes)曹体,也就是一次心跳循環(huán)中剛開始的心室容積和中間的心室容積俗扇,可以判斷出心臟的功能是否良好,這是進一步診斷是否患有心臟病的重要指標箕别。
除此之外铜幽,心室射血分數(shù) Ejection Fraction (EF)是用來表示每次心跳從左心室中射出的血液比例的指標悬而。其計算公式為
EF=每次心跳從左心室中射出的血液/舒張時左心室中所有的血液量
也就是說壮池,
![][0]
[0]: http://latex.codecogs.com/svg.latex?EF=\frac{V_D-V_S}{V_D}
以上三個指標,可以共同作為心臟病的預(yù)測依據(jù)半沽。最常用且有效的觀察這幾個指標的方法就是通過心臟核磁共振成像(MRI)母截。
然而到忽,當前通過人工觀察MRI的方法來測量EF等指標的問題在于效率過于低下。由于采用人工的方式進行分析清寇,即便是一個非常有經(jīng)驗的心臟專家也可能花掉20分鐘來分析MRI掃描圖像以確定一位患者的EF指標喘漏。如果采用機器自動識別的方式來進行測量,不僅可以提早的檢測出心臟狀況华烟、提高效率翩迈,同時還可以大大節(jié)省心臟專家花費在這些事務(wù)上的時間、而更好的投入到其他更需要他們的環(huán)節(jié)當中盔夜。
第二屆Annual Data Science Bowl要求的就是設(shè)計算法并搭建系統(tǒng)负饲,通過處理超過1000個患者的心臟核磁共振成像(MRI)來估計患者的舒張壓和收縮壓堤魁,以此來幫助診斷心臟病。
Evaluation Metrics
NDSB2使用Continuous Ranked Probability Score (CRPS)作為評價標準返十,公式為:
![][1]
[1]: http://latex.codecogs.com/svg.latex?C=\frac{1}{600N}\sum_{m=1}{N}\sum_{n=0}{599}(P({y}\le{n})-H(n-V_m))^2
其中P是預(yù)測概率分布妥泉,由參賽者分別預(yù)測每條記錄的收縮末期容積和舒張末期容積的(累計)概率分布得到;N是測試記錄數(shù)的兩倍(收縮和舒張兩種情況分別預(yù)測)吧慢;V是實際的容量(以mL為單位)涛漂;H(x)是階躍函數(shù)(x >= 0時H(x)為1,否則為0)检诗。
圖上可以比較直觀的看出預(yù)測值和實際值的誤差計算方式,雖然NDSB2的CRPS采用的是離散數(shù)據(jù)點逢慌、計算的是二者差值的平方悠轩,但是圖中綠色部分的面積可以近似的看成誤差函數(shù)所要計算的值(假設(shè)使用的是連續(xù)版本的CRPS,即用求積分代替求和)攻泼』鸺埽可以看到當預(yù)測分布曲線越貼近真實值時,綠色部分的面積就越小忙菠。
Datasets
NDSB2提供的數(shù)據(jù)集可以在這里下載(不過下載之前要先注冊賬號何鸡,而且下載速度即使開了VPN也非常緩慢。牛欢。)骡男。
數(shù)據(jù)集包括數(shù)百個心臟核磁共振DICOM格式的圖像。每條數(shù)據(jù)實際上類似于一小段大約30幀左右的視頻傍睹,記錄了心跳循環(huán)的過程隔盛。為了增加數(shù)據(jù)的真實性,每一幀心臟圖像都是從不同的心跳循環(huán)中獲取的(Each slice is acquired on a separate breath hold. This is important since the registration from slice to slice is expected to be imperfect.)拾稳。實際上參賽者的任務(wù)就是要在給定一條新記錄的情況下吮炕,預(yù)測其在收縮和舒張兩個階段末期左心房的大小。
問題的主要困難體現(xiàn)在數(shù)據(jù)本身上访得。由于每條記錄可能來自不同年齡的個體龙亲、不同醫(yī)院記錄的圖像,許多記錄的心臟功能甚至本身就有異常悍抑,因此數(shù)據(jù)在解剖層面鳄炉、圖像質(zhì)量、獲取來源的巨大差異使得對數(shù)據(jù)集的分析非常困難传趾。參賽者的主要目標迎膜,就是要設(shè)計出一種盡量降低多種差異帶來的影響的算法泥技。
MXnet Sample Solutions
之前既然是從MXnet跨界過來看Kaggle的浆兰,那MXnet的方法當然是要說一下磕仅。
MXnet把NDSB2劃為圖像分類的問題,其解決思路也相當簡單簸呈¢哦基本思想是把每條記錄的n幀提取出來,通過壓縮裁切使得每一幀轉(zhuǎn)變?yōu)?4*64的圖像蜕便;然后將這n張裁切過的圖像進行連結(jié)劫恒,得到n張64*64的圖像,直接輸入到一個類似于經(jīng)典的CNN-LeNet網(wǎng)絡(luò)進行訓練(在這里他們發(fā)現(xiàn)對于大部分記錄來說都是由30幀圖像組成轿腺,因此n取值為30)两嘴;輸出設(shè)定為600維的類別,使用邏輯回歸來估計每一維的值(每一維數(shù)值自然落在0~1之間)族壳,最后將這600個值按照遞增序輸出即得到了要求的概率分布憔辫。
這種訓練方法得到的結(jié)果可以在驗證集上的CPRS達到0.039222,在比賽的初始階段(2015年的12月22日)足以進入前十仿荆。
在其代碼實現(xiàn)中還有一些細節(jié)的考慮贰您,比如說將圖像壓縮裁切完之后,不是直接放在MXnet的numpy中拢操,而是將其以csv格式寫入硬盤里锦亦,等到訓練時再依次以MXnet的CSVIter讀出進行訓練,這樣可以避免由于數(shù)據(jù)集過大而占用大量內(nèi)存令境;同時為了提高訓練效果杠园,代碼實現(xiàn)中并不是直接地將30*64*64的圖像輸入網(wǎng)絡(luò),而是將相鄰幀之間的差值作為輸入展父;在其訓練網(wǎng)絡(luò)的實現(xiàn)中也并不是完全按照LeNet的結(jié)構(gòu)返劲,比如使用了relu函數(shù)作為激活函數(shù)、采用了Flatten和Dropout技術(shù)等等栖茉,在這邊就不細說了篮绿,具體的細節(jié)可以參看其代碼。
不過值得一提的是吕漂,實現(xiàn)以上功能在MXnet框架下十分容易亲配,主要的問題都集中在如何設(shè)計網(wǎng)絡(luò)這個環(huán)節(jié),網(wǎng)絡(luò)實現(xiàn)這一步是沒有多少工作量的惶凝,如下所示只有短短的十幾行而已吼虎。
def get_lenet():
""" A lenet style net, takes difference of each frame as input.
"""
source = mx.sym.Variable("data")
source = (source - 128) * (1.0/128)
frames = mx.sym.SliceChannel(source, num_outputs=30)
diffs = [frames[i+1] - frames[i] for i in range(29)]
source = mx.sym.Concat(*diffs)
net = mx.sym.Convolution(source, kernel=(5, 5), num_filter=40)
net = mx.sym.BatchNorm(net, fix_gamma=True)
net = mx.sym.Activation(net, act_type="relu")
net = mx.sym.Pooling(net, pool_type="max", kernel=(2,2), stride=(2,2))
net = mx.sym.Convolution(net, kernel=(3, 3), num_filter=40)
net = mx.sym.BatchNorm(net, fix_gamma=True)
net = mx.sym.Activation(net, act_type="relu")
net = mx.sym.Pooling(net, pool_type="max", kernel=(2,2), stride=(2,2))
# first fullc
flatten = mx.symbol.Flatten(net)
flatten = mx.symbol.Dropout(flatten)
fc1 = mx.symbol.FullyConnected(data=flatten, num_hidden=600)
# Name the final layer as softmax so it auto matches the naming of data iterator
# Otherwise we can also change the provide_data in the data iter
return mx.symbol.LogisticRegressionOutput(data=fc1, name='softmax')
Other Solutions
Kaggle自己貼出了兩種解決方案,一種是基于傅里葉分析的方法苍鲜,另外一種是在Caffe平臺上實現(xiàn)的基于全卷積神經(jīng)網(wǎng)絡(luò)的方法思灰。我只稍微看了一下第二種,它在使用NDSB2的數(shù)據(jù)集進行訓練之前先找了一個Sunnybrook dataset來進行訓練混滔,相當于增大了數(shù)據(jù)集洒疚,效果應(yīng)該是提升了不少歹颓。