[Kaggle] NDSB2: Diagnose Heart Disease

這篇主要介紹Kaggle的第二屆年度數(shù)據(jù)科學競賽：Transforming How We Diagnose Heart Disease。關(guān)于Kaggle平臺本身的相關(guān)內(nèi)容布卡，可以參考：[Kaggle] 數(shù)據(jù)建模分析與競賽平臺介紹获诈。

Kaggle除了作為平臺來幫助組織者們舉辦數(shù)據(jù)分析比賽之外授滓，其本身從2014年開始每年也會和Booz Allen Hamilton（一家著名的咨詢公司）舉辦一次年度的數(shù)據(jù)分析競賽Annual Data Science Bowl怒坯，從名字上來看就有點類似Super Bowl的意味忌愚，所以說也相當于是數(shù)據(jù)科學的一大年度盛事吧揩抡。每次比賽從當年12月開始一直持續(xù)到第二年的3月份户侥，總共三個月的時間。

第一屆Assessing Ocean Health at a Massive Speed & Scale峦嗤，要求搭建一個圖像識別系統(tǒng)來處理由水下圖像傳感器收集的微觀高像素照片蕊唐，以分析海水中浮游生物的種類和數(shù)量；第二屆Transforming How We Diagnose Heart Disease烁设，要求搭建一個系統(tǒng)替梨，通過處理超過1000個患者的心臟核磁共振成像(MRI)來估計患者的舒張壓和收縮壓，以此來幫助診斷心臟病署尤。

Data Science Bowl

這里介紹的是第二屆比賽的相關(guān)內(nèi)容耙替。

Task Description

Transforming How We Diagnose Heart Disease

人體的一次心跳循環(huán)包括三個過程：收縮Systole—>舒張Diastole—>收縮Systole。通過測量一次心跳中收縮末期（End-Systolic Volumes）和舒張末期容積（End-Diastole Volumes）曹体，也就是一次心跳循環(huán)中剛開始的心室容積和中間的心室容積俗扇，可以判斷出心臟的功能是否良好，這是進一步診斷是否患有心臟病的重要指標箕别。

除此之外铜幽，心室射血分數(shù) Ejection Fraction (EF)是用來表示每次心跳從左心室中射出的血液比例的指標悬而。其計算公式為

EF=每次心跳從左心室中射出的血液/舒張時左心室中所有的血液量

也就是說壮池，
![][0]
[0]: http://latex.codecogs.com/svg.latex?EF=\frac{V_D-V_S}{V_D}
以上三個指標，可以共同作為心臟病的預(yù)測依據(jù)半沽。最常用且有效的觀察這幾個指標的方法就是通過心臟核磁共振成像(MRI)母截。

心臟MRI

然而到忽，當前通過人工觀察MRI的方法來測量EF等指標的問題在于效率過于低下。由于采用人工的方式進行分析清寇，即便是一個非常有經(jīng)驗的心臟專家也可能花掉20分鐘來分析MRI掃描圖像以確定一位患者的EF指標喘漏。如果采用機器自動識別的方式來進行測量，不僅可以提早的檢測出心臟狀況华烟、提高效率翩迈，同時還可以大大節(jié)省心臟專家花費在這些事務(wù)上的時間、而更好的投入到其他更需要他們的環(huán)節(jié)當中盔夜。

第二屆Annual Data Science Bowl要求的就是設(shè)計算法并搭建系統(tǒng)负饲，通過處理超過1000個患者的心臟核磁共振成像(MRI)來估計患者的舒張壓和收縮壓堤魁，以此來幫助診斷心臟病。

比賽結(jié)果 Leader Board

Evaluation Metrics

NDSB2使用Continuous Ranked Probability Score (CRPS)作為評價標準返十，公式為：
![][1]
[1]: http://latex.codecogs.com/svg.latex?C=\frac{1}{600N}\sum_{m=1}^{{N}\sum_{n=0}}{599}(P({y}\le{n})-H(n-V_m))^2

其中P是預(yù)測概率分布妥泉，由參賽者分別預(yù)測每條記錄的收縮末期容積和舒張末期容積的（累計）概率分布得到；N是測試記錄數(shù)的兩倍（收縮和舒張兩種情況分別預(yù)測）吧慢；V是實際的容量（以mL為單位）涛漂；H(x)是階躍函數(shù)（x >= 0時H(x)為1，否則為0）检诗。

直觀的單條記錄預(yù)測誤差：n從0ML到600ML匈仗，每個值表示壓力小于等于n的概率

圖上可以比較直觀的看出預(yù)測值和實際值的誤差計算方式，雖然NDSB2的CRPS采用的是離散數(shù)據(jù)點逢慌、計算的是二者差值的平方悠轩，但是圖中綠色部分的面積可以近似的看成誤差函數(shù)所要計算的值（假設(shè)使用的是連續(xù)版本的CRPS，即用求積分代替求和）攻泼』鸺埽可以看到當預(yù)測分布曲線越貼近真實值時，綠色部分的面積就越小忙菠。

Datasets

NDSB2提供的數(shù)據(jù)集可以在這里下載（不過下載之前要先注冊賬號何鸡，而且下載速度即使開了VPN也非常緩慢。牛欢。）骡男。
數(shù)據(jù)集包括數(shù)百個心臟核磁共振DICOM格式的圖像。每條數(shù)據(jù)實際上類似于一小段大約30幀左右的視頻傍睹，記錄了心跳循環(huán)的過程隔盛。為了增加數(shù)據(jù)的真實性，每一幀心臟圖像都是從不同的心跳循環(huán)中獲取的（Each slice is acquired on a separate breath hold. This is important since the registration from slice to slice is expected to be imperfect.）拾稳。實際上參賽者的任務(wù)就是要在給定一條新記錄的情況下吮炕，預(yù)測其在收縮和舒張兩個階段末期左心房的大小。

問題的主要困難體現(xiàn)在數(shù)據(jù)本身上访得。由于每條記錄可能來自不同年齡的個體龙亲、不同醫(yī)院記錄的圖像，許多記錄的心臟功能甚至本身就有異常悍抑，因此數(shù)據(jù)在解剖層面鳄炉、圖像質(zhì)量、獲取來源的巨大差異使得對數(shù)據(jù)集的分析非常困難传趾。參賽者的主要目標迎膜，就是要設(shè)計出一種盡量降低多種差異帶來的影響的算法泥技。

一條記錄的例子

MXnet Sample Solutions

之前既然是從MXnet跨界過來看Kaggle的浆兰，那MXnet的方法當然是要說一下磕仅。

MXnet把NDSB2劃為圖像分類的問題，其解決思路也相當簡單簸呈￠哦基本思想是把每條記錄的n幀提取出來，通過壓縮裁切使得每一幀轉(zhuǎn)變?yōu)?4*64的圖像蜕便；然后將這n張裁切過的圖像進行連結(jié)劫恒，得到n張64*64的圖像，直接輸入到一個類似于經(jīng)典的CNN-LeNet網(wǎng)絡(luò)進行訓練（在這里他們發(fā)現(xiàn)對于大部分記錄來說都是由30幀圖像組成轿腺，因此n取值為30）两嘴；輸出設(shè)定為600維的類別，使用邏輯回歸來估計每一維的值（每一維數(shù)值自然落在0～1之間）族壳，最后將這600個值按照遞增序輸出即得到了要求的概率分布憔辫。
這種訓練方法得到的結(jié)果可以在驗證集上的CPRS達到0.039222，在比賽的初始階段（2015年的12月22日）足以進入前十仿荆。

在其代碼實現(xiàn)中還有一些細節(jié)的考慮贰您，比如說將圖像壓縮裁切完之后，不是直接放在MXnet的numpy中拢操，而是將其以csv格式寫入硬盤里锦亦，等到訓練時再依次以MXnet的CSVIter讀出進行訓練，這樣可以避免由于數(shù)據(jù)集過大而占用大量內(nèi)存令境；同時為了提高訓練效果杠园，代碼實現(xiàn)中并不是直接地將30*64*64的圖像輸入網(wǎng)絡(luò)，而是將相鄰幀之間的差值作為輸入展父；在其訓練網(wǎng)絡(luò)的實現(xiàn)中也并不是完全按照LeNet的結(jié)構(gòu)返劲，比如使用了relu函數(shù)作為激活函數(shù)、采用了Flatten和Dropout技術(shù)等等栖茉，在這邊就不細說了篮绿，具體的細節(jié)可以參看其代碼。

不過值得一提的是吕漂，實現(xiàn)以上功能在MXnet框架下十分容易亲配，主要的問題都集中在如何設(shè)計網(wǎng)絡(luò)這個環(huán)節(jié)，網(wǎng)絡(luò)實現(xiàn)這一步是沒有多少工作量的惶凝，如下所示只有短短的十幾行而已吼虎。

def get_lenet():
    """ A lenet style net, takes difference of each frame as input.
    """
    source = mx.sym.Variable("data")
    source = (source - 128) * (1.0/128)
    frames = mx.sym.SliceChannel(source, num_outputs=30)
    diffs = [frames[i+1] - frames[i] for i in range(29)]
    source = mx.sym.Concat(*diffs)
    net = mx.sym.Convolution(source, kernel=(5, 5), num_filter=40)
    net = mx.sym.BatchNorm(net, fix_gamma=True)
    net = mx.sym.Activation(net, act_type="relu")
    net = mx.sym.Pooling(net, pool_type="max", kernel=(2,2), stride=(2,2))
    net = mx.sym.Convolution(net, kernel=(3, 3), num_filter=40)
    net = mx.sym.BatchNorm(net, fix_gamma=True)
    net = mx.sym.Activation(net, act_type="relu")
    net = mx.sym.Pooling(net, pool_type="max", kernel=(2,2), stride=(2,2))
    # first fullc
    flatten = mx.symbol.Flatten(net)
    flatten = mx.symbol.Dropout(flatten)
    fc1 = mx.symbol.FullyConnected(data=flatten, num_hidden=600)
    # Name the final layer as softmax so it auto matches the naming of data iterator
    # Otherwise we can also change the provide_data in the data iter
    return mx.symbol.LogisticRegressionOutput(data=fc1, name='softmax')

[Kaggle] NDSB2: Diagnose Heart Disease

[Kaggle] NDSB2: Diagnose Heart Disease

Task Description

Evaluation Metrics

Datasets

MXnet Sample Solutions

Other Solutions

推薦閱讀更多精彩內(nèi)容