[Kaggle] NDSB2: Diagnose Heart Disease

這篇主要介紹Kaggle的第二屆年度數(shù)據(jù)科學競賽:Transforming How We Diagnose Heart Disease。關(guān)于Kaggle平臺本身的相關(guān)內(nèi)容布卡,可以參考:[Kaggle] 數(shù)據(jù)建模分析與競賽平臺介紹获诈。

Kaggle除了作為平臺來幫助組織者們舉辦數(shù)據(jù)分析比賽之外授滓,其本身從2014年開始每年也會和Booz Allen Hamilton(一家著名的咨詢公司)舉辦一次年度的數(shù)據(jù)分析競賽Annual Data Science Bowl怒坯,從名字上來看就有點類似Super Bowl的意味忌愚,所以說也相當于是數(shù)據(jù)科學的一大年度盛事吧揩抡。每次比賽從當年12月開始一直持續(xù)到第二年的3月份户侥,總共三個月的時間。

第一屆Assessing Ocean Health at a Massive Speed & Scale峦嗤,要求搭建一個圖像識別系統(tǒng)來處理由水下圖像傳感器收集的微觀高像素照片蕊唐,以分析海水中浮游生物的種類和數(shù)量;第二屆Transforming How We Diagnose Heart Disease烁设,要求搭建一個系統(tǒng)替梨,通過處理超過1000個患者的心臟核磁共振成像(MRI)來估計患者的舒張壓和收縮壓,以此來幫助診斷心臟病署尤。

Data Science Bowl

這里介紹的是第二屆比賽的相關(guān)內(nèi)容耙替。

Task Description


Transforming How We Diagnose Heart Disease

人體的一次心跳循環(huán)包括三個過程:收縮Systole—>舒張Diastole—>收縮Systole。通過測量一次心跳中收縮末期(End-Systolic Volumes)和舒張末期容積(End-Diastole Volumes)曹体,也就是一次心跳循環(huán)中剛開始的心室容積和中間的心室容積俗扇,可以判斷出心臟的功能是否良好,這是進一步診斷是否患有心臟病的重要指標箕别。

除此之外铜幽,心室射血分數(shù) Ejection Fraction (EF)是用來表示每次心跳從左心室中射出的血液比例的指標悬而。其計算公式為

EF=每次心跳從左心室中射出的血液/舒張時左心室中所有的血液量

也就是說壮池,
![][0]
[0]: http://latex.codecogs.com/svg.latex?EF=\frac{V_D-V_S}{V_D}
以上三個指標,可以共同作為心臟病的預(yù)測依據(jù)半沽。最常用且有效的觀察這幾個指標的方法就是通過心臟核磁共振成像(MRI)母截。

心臟MRI

然而到忽,當前通過人工觀察MRI的方法來測量EF等指標的問題在于效率過于低下。由于采用人工的方式進行分析清寇,即便是一個非常有經(jīng)驗的心臟專家也可能花掉20分鐘來分析MRI掃描圖像以確定一位患者的EF指標喘漏。如果采用機器自動識別的方式來進行測量,不僅可以提早的檢測出心臟狀況华烟、提高效率翩迈,同時還可以大大節(jié)省心臟專家花費在這些事務(wù)上的時間、而更好的投入到其他更需要他們的環(huán)節(jié)當中盔夜。

第二屆Annual Data Science Bowl要求的就是設(shè)計算法并搭建系統(tǒng)负饲,通過處理超過1000個患者的心臟核磁共振成像(MRI)來估計患者的舒張壓和收縮壓堤魁,以此來幫助診斷心臟病。

比賽結(jié)果 Leader Board

Evaluation Metrics


NDSB2使用Continuous Ranked Probability Score (CRPS)作為評價標準返十,公式為:
![][1]
[1]: http://latex.codecogs.com/svg.latex?C=\frac{1}{600N}\sum_{m=1}{N}\sum_{n=0}{599}(P({y}\le{n})-H(n-V_m))^2

其中P是預(yù)測概率分布妥泉,由參賽者分別預(yù)測每條記錄的收縮末期容積和舒張末期容積的(累計)概率分布得到;N是測試記錄數(shù)的兩倍(收縮和舒張兩種情況分別預(yù)測)吧慢;V是實際的容量(以mL為單位)涛漂;H(x)是階躍函數(shù)(x >= 0時H(x)為1,否則為0)检诗。

直觀的單條記錄預(yù)測誤差:n從0ML到600ML匈仗,每個值表示壓力小于等于n的概率

圖上可以比較直觀的看出預(yù)測值和實際值的誤差計算方式,雖然NDSB2的CRPS采用的是離散數(shù)據(jù)點逢慌、計算的是二者差值的平方悠轩,但是圖中綠色部分的面積可以近似的看成誤差函數(shù)所要計算的值(假設(shè)使用的是連續(xù)版本的CRPS,即用求積分代替求和)攻泼』鸺埽可以看到當預(yù)測分布曲線越貼近真實值時,綠色部分的面積就越小忙菠。

Datasets


NDSB2提供的數(shù)據(jù)集可以在這里下載(不過下載之前要先注冊賬號何鸡,而且下載速度即使開了VPN也非常緩慢。牛欢。)骡男。
數(shù)據(jù)集包括數(shù)百個心臟核磁共振DICOM格式的圖像。每條數(shù)據(jù)實際上類似于一小段大約30幀左右的視頻傍睹,記錄了心跳循環(huán)的過程隔盛。為了增加數(shù)據(jù)的真實性,每一幀心臟圖像都是從不同的心跳循環(huán)中獲取的(Each slice is acquired on a separate breath hold. This is important since the registration from slice to slice is expected to be imperfect.)拾稳。實際上參賽者的任務(wù)就是要在給定一條新記錄的情況下吮炕,預(yù)測其在收縮和舒張兩個階段末期左心房的大小。

問題的主要困難體現(xiàn)在數(shù)據(jù)本身上访得。由于每條記錄可能來自不同年齡的個體龙亲、不同醫(yī)院記錄的圖像,許多記錄的心臟功能甚至本身就有異常悍抑,因此數(shù)據(jù)在解剖層面鳄炉、圖像質(zhì)量、獲取來源的巨大差異使得對數(shù)據(jù)集的分析非常困難传趾。參賽者的主要目標迎膜,就是要設(shè)計出一種盡量降低多種差異帶來的影響的算法泥技。

一條記錄的例子

MXnet Sample Solutions


之前既然是從MXnet跨界過來看Kaggle的浆兰,那MXnet的方法當然是要說一下磕仅。

MXnet把NDSB2劃為圖像分類的問題,其解決思路也相當簡單簸呈¢哦基本思想是把每條記錄的n幀提取出來,通過壓縮裁切使得每一幀轉(zhuǎn)變?yōu)?4*64的圖像蜕便;然后將這n張裁切過的圖像進行連結(jié)劫恒,得到n張64*64的圖像,直接輸入到一個類似于經(jīng)典的CNN-LeNet網(wǎng)絡(luò)進行訓練(在這里他們發(fā)現(xiàn)對于大部分記錄來說都是由30幀圖像組成轿腺,因此n取值為30)两嘴;輸出設(shè)定為600維的類別,使用邏輯回歸來估計每一維的值(每一維數(shù)值自然落在0~1之間)族壳,最后將這600個值按照遞增序輸出即得到了要求的概率分布憔辫。
這種訓練方法得到的結(jié)果可以在驗證集上的CPRS達到0.039222,在比賽的初始階段(2015年的12月22日)足以進入前十仿荆。

在其代碼實現(xiàn)中還有一些細節(jié)的考慮贰您,比如說將圖像壓縮裁切完之后,不是直接放在MXnet的numpy中拢操,而是將其以csv格式寫入硬盤里锦亦,等到訓練時再依次以MXnet的CSVIter讀出進行訓練,這樣可以避免由于數(shù)據(jù)集過大而占用大量內(nèi)存令境;同時為了提高訓練效果杠园,代碼實現(xiàn)中并不是直接地將30*64*64的圖像輸入網(wǎng)絡(luò),而是將相鄰幀之間的差值作為輸入展父;在其訓練網(wǎng)絡(luò)的實現(xiàn)中也并不是完全按照LeNet的結(jié)構(gòu)返劲,比如使用了relu函數(shù)作為激活函數(shù)、采用了Flatten和Dropout技術(shù)等等栖茉,在這邊就不細說了篮绿,具體的細節(jié)可以參看其代碼

不過值得一提的是吕漂,實現(xiàn)以上功能在MXnet框架下十分容易亲配,主要的問題都集中在如何設(shè)計網(wǎng)絡(luò)這個環(huán)節(jié),網(wǎng)絡(luò)實現(xiàn)這一步是沒有多少工作量的惶凝,如下所示只有短短的十幾行而已吼虎。

def get_lenet():
    """ A lenet style net, takes difference of each frame as input.
    """
    source = mx.sym.Variable("data")
    source = (source - 128) * (1.0/128)
    frames = mx.sym.SliceChannel(source, num_outputs=30)
    diffs = [frames[i+1] - frames[i] for i in range(29)]
    source = mx.sym.Concat(*diffs)
    net = mx.sym.Convolution(source, kernel=(5, 5), num_filter=40)
    net = mx.sym.BatchNorm(net, fix_gamma=True)
    net = mx.sym.Activation(net, act_type="relu")
    net = mx.sym.Pooling(net, pool_type="max", kernel=(2,2), stride=(2,2))
    net = mx.sym.Convolution(net, kernel=(3, 3), num_filter=40)
    net = mx.sym.BatchNorm(net, fix_gamma=True)
    net = mx.sym.Activation(net, act_type="relu")
    net = mx.sym.Pooling(net, pool_type="max", kernel=(2,2), stride=(2,2))
    # first fullc
    flatten = mx.symbol.Flatten(net)
    flatten = mx.symbol.Dropout(flatten)
    fc1 = mx.symbol.FullyConnected(data=flatten, num_hidden=600)
    # Name the final layer as softmax so it auto matches the naming of data iterator
    # Otherwise we can also change the provide_data in the data iter
    return mx.symbol.LogisticRegressionOutput(data=fc1, name='softmax')

Other Solutions


Kaggle自己貼出了兩種解決方案,一種是基于傅里葉分析的方法苍鲜,另外一種是在Caffe平臺上實現(xiàn)的基于全卷積神經(jīng)網(wǎng)絡(luò)的方法思灰。我只稍微看了一下第二種,它在使用NDSB2的數(shù)據(jù)集進行訓練之前先找了一個Sunnybrook dataset來進行訓練混滔,相當于增大了數(shù)據(jù)集洒疚,效果應(yīng)該是提升了不少歹颓。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市油湖,隨后出現(xiàn)的幾起案子巍扛,更是在濱河造成了極大的恐慌,老刑警劉巖乏德,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件撤奸,死亡現(xiàn)場離奇詭異,居然都是意外死亡喊括,警方通過查閱死者的電腦和手機胧瓜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來郑什,“玉大人贷痪,你說我怎么就攤上這事”奈螅” “怎么了劫拢?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長强胰。 經(jīng)常有香客問我舱沧,道長,這世上最難降的妖魔是什么偶洋? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任熟吏,我火速辦了婚禮,結(jié)果婚禮上玄窝,老公的妹妹穿的比我還像新娘牵寺。我一直安慰自己,他們只是感情好恩脂,可當我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布帽氓。 她就那樣靜靜地躺著,像睡著了一般俩块。 火紅的嫁衣襯著肌膚如雪黎休。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天玉凯,我揣著相機與錄音势腮,去河邊找鬼。 笑死漫仆,一個胖子當著我的面吹牛捎拯,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播盲厌,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼署照,長吁一口氣:“原來是場噩夢啊……” “哼座菠!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起藤树,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎拓萌,沒想到半個月后岁钓,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡微王,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年屡限,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片炕倘。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡钧大,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出罩旋,到底是詐尸還是另有隱情啊央,我是刑警寧澤,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布涨醋,位于F島的核電站瓜饥,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏浴骂。R本人自食惡果不足惜乓土,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望溯警。 院中可真熱鬧趣苏,春花似錦、人聲如沸梯轻。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽喳挑。三九已至芬为,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間蟀悦,已是汗流浹背媚朦。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留日戈,地道東北人询张。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像浙炼,于是被迫代替她去往敵國和親份氧。 傳聞我的和親對象是個殘疾皇子唯袄,可洞房花燭夜當晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容