1901脈管侵犯日志

20190122


部分病例的分化程度、分型信息缺失 Done
PET 的 101 108 113三個(gè)病例的影像有問題 和其他病人的影像都不一樣 Done
CT 的 88 173 兩個(gè)病例恩静,原圖像和分割不匹配 Done
101號(hào)病例的部位是1+2+4从媚,但是影像上只標(biāo)了一個(gè) Done

20190123


42號(hào)病例蝌蹂,SE2圖像和分割不匹配 Done

20190124


準(zhǔn)備優(yōu)化數(shù)據(jù)的形式款慨,利用DataFrameMapper
已經(jīng)利用imbalance_learn胖烛,應(yīng)對(duì)類別不平衡問題:SMOTE挫以。使用SMOTE后者蠕,過擬合仍嚴(yán)重。
3-4個(gè)特征就能在訓(xùn)練集上達(dá)到0.9以上的AUC掐松,而測(cè)試集只有0.5踱侣,不知道為什么感覺大部分時(shí)候在0.5以下

今天的收獲:

1.如果過擬合的話,在特征初篩的時(shí)候大磺,盡量不使用有監(jiān)督的初篩(如u檢驗(yàn)抡句、mrmr),使用有監(jiān)督的特征選擇時(shí)交叉驗(yàn)證杠愧。

  1. SVM(即使是線性核)相比于logistic更容易過擬合
和F師兄討論后決定步驟:
  1. 分析每個(gè)臨床特征對(duì)標(biāo)簽的顯著性(p值)
  2. 單個(gè)臨床特征待榔、單個(gè)影像特征建模,跑出來一個(gè)表格流济,分析單個(gè)特征的效能
  3. 重新決定訓(xùn)練集锐锣、驗(yàn)證集比例(如2:1)腌闯,調(diào)出一個(gè)比較好的結(jié)果
  4. 反復(fù)重新劃分樣本集,驗(yàn)證訓(xùn)練方法的魯棒性

20190125


完成了臨床特征對(duì)標(biāo)簽的顯著性檢驗(yàn)(p值)雕憔,只有“部位”顯著
完成了單個(gè)特征建模绑嘹,跑出來一個(gè)表格,分析單個(gè)特征的效能橘茉,但是發(fā)現(xiàn)一個(gè)奇怪的現(xiàn)象:
對(duì)每個(gè)特征工腋,分別隨機(jī)劃分訓(xùn)練及測(cè)試集100次,每次劃分建立一個(gè)logistic模型畅卓,計(jì)算測(cè)試集上的AUC值擅腰。
然后發(fā)現(xiàn)有些特征每次AUC都在0.5以下(0.25-0.4)。查了查都說因?yàn)槭秦?fù)相關(guān)翁潘,取個(gè)反就行了趁冈,但是我覺得logstic應(yīng)該能把這種負(fù)相關(guān)學(xué)習(xí)出來吧。問了師兄們也沒有結(jié)果拜马。
F師兄告訴我渗勘,單個(gè)特征測(cè)試不用分訓(xùn)練和驗(yàn)證,直接算AUC就行俩莽,因?yàn)橄鄬?duì)關(guān)系是不變的旺坠。于是改為直接計(jì)算AUC。
http://www.reibang.com/p/90106243d231
完成上述兩個(gè)步驟后發(fā)現(xiàn)扮超,還是有幾個(gè)特征的AUC>0.7取刃,p<0.05,希望組合起來能獲得好一些的效果出刷。

20190122


部分病例的分化程度璧疗、分型信息缺失 Done
PET 的 101 108 113三個(gè)病例的影像有問題 和其他病人的影像都不一樣 Done
CT 的 88 173 兩個(gè)病例,原圖像和分割不匹配 Done
101號(hào)病例的部位是1+2+4馁龟,但是影像上只標(biāo)了一個(gè) Done

20190123


42號(hào)病例崩侠,SE2圖像和分割不匹配 Done

20190124


準(zhǔn)備優(yōu)化數(shù)據(jù)的形式,利用DataFrameMapper
已經(jīng)利用imbalance_learn坷檩,應(yīng)對(duì)類別不平衡問題:SMOTE却音。使用SMOTE后,過擬合仍嚴(yán)重淌喻。
3-4個(gè)特征就能在訓(xùn)練集上達(dá)到0.9以上的AUC僧家,而測(cè)試集只有0.5,不知道為什么感覺大部分時(shí)候在0.5以下

今天的收獲:
1.如果過擬合的話裸删,在特征初篩的時(shí)候,盡量不使用有監(jiān)督的初篩(如u檢驗(yàn)阵赠、mrmr)涯塔,使用有監(jiān)督的特征選擇時(shí)交叉驗(yàn)證肌稻。

  1. SVM(即使是線性核)相比于logistic更容易過擬合

和F師兄討論后決定步驟:

  1. 分析每個(gè)臨床特征對(duì)標(biāo)簽的顯著性(p值)
  2. 單個(gè)臨床特征、單個(gè)影像特征建模匕荸,跑出來一個(gè)表格爹谭,分析單個(gè)特征的效能
  3. 重新決定訓(xùn)練集、驗(yàn)證集比例(如2:1)榛搔,調(diào)出一個(gè)比較好的結(jié)果
  4. 反復(fù)重新劃分樣本集诺凡,驗(yàn)證訓(xùn)練方法的魯棒性

20190125


完成了臨床特征對(duì)標(biāo)簽的顯著性檢驗(yàn)(p值),只有“部位”顯著
完成了單個(gè)特征建模践惑,跑出來一個(gè)表格腹泌,分析單個(gè)特征的效能,但是發(fā)現(xiàn)一個(gè)奇怪的現(xiàn)象:
對(duì)每個(gè)特征尔觉,分別隨機(jī)劃分訓(xùn)練及測(cè)試集100次凉袱,每次劃分建立一個(gè)logistic模型,計(jì)算測(cè)試集上的AUC值侦铜。
然后發(fā)現(xiàn)有些特征每次AUC都在0.5以下(0.25-0.4)专甩。查了查都說因?yàn)槭秦?fù)相關(guān),取個(gè)反就行了钉稍,但是我覺得logstic應(yīng)該能把這種負(fù)相關(guān)學(xué)習(xí)出來吧涤躲。問了師兄們也沒有結(jié)果。
F師兄告訴我贡未,單個(gè)特征測(cè)試不用分訓(xùn)練和驗(yàn)證篓叶,直接算AUC就行,因?yàn)橄鄬?duì)關(guān)系是不變的羞秤。于是改為直接計(jì)算AUC缸托。
http://www.reibang.com/p/90106243d231
完成上述兩個(gè)步驟后發(fā)現(xiàn),還是有幾個(gè)特征的AUC>0.7瘾蛋,p<0.05俐镐,希望組合起來能獲得好一些的效果。

20190217


重新開工哺哼,初步完成了步驟3和4佩抹。
步驟如下:

  1. 按1:1或2:1重復(fù)劃分訓(xùn)練集、測(cè)試集
  2. SMOTE重采樣
  3. 特征預(yù)處理取董,刪除包含一定量缺失值棍苹、大量相同值缤底、相關(guān)系數(shù)高的特征
  4. mRMR特征排序選擇斋攀,保留前10個(gè)或前20個(gè)特征
  5. LASSO特征選擇
  6. 采用邏輯回歸建模,進(jìn)行GridSearch選擇參數(shù)
    可以調(diào)出比較好看的結(jié)果(詳見"結(jié)果.txt")哪轿,如:
    (23, 8) 401 0.32 10 0.8431372549019608
    (35, 7) 416 0.49 10 0.8034188034188035

至于訓(xùn)練方法的魯棒性:
不到一半的次數(shù)(0.43)里,測(cè)試集的AUC大于0.55栏豺,0.2的大于0.6彬碱,0.054的大于0.7,也就是說奥洼,基本可以表明標(biāo)簽和影像無(wú)關(guān)巷疼。

20190226


以上結(jié)果和實(shí)驗(yàn)都是在“CT+PET”的特征上做的
發(fā)現(xiàn)AUC結(jié)果比較好(0.8以上)的樣本集劃分方式,臨床特征都很不平衡灵奖,要么臨床特征分布不平衡嚼沿,要么auc結(jié)果很差。
醫(yī)生說先忽略樣本臨床特征不平衡的問題瓷患,繼續(xù)按照這個(gè)做骡尽。這種數(shù)據(jù)真的沒什么意義。
調(diào)好CT+PET的結(jié)果:

  1. 放射組學(xué)標(biāo)簽的構(gòu)建和驗(yàn)證
    采用LogisticRegression模型尉尾,模型采用的特征名及其系數(shù)為:
    'diagnostics_Image-original_Mean', -0.33110345
    'exponential_glcm_Correlation_CT', -0.72360895
    'exponential_glszm_ZoneVariance_CT', -0.92127714
    'square_glszm_GrayLevelNonUniformityNormalized_CT', -3.5461045
    'wavelet-HHH_glszm_SizeZoneNonUniformity_PET', -0.39414552
    'wavelet-HHL_glszm_SizeZoneNonUniformity_PET', -0.09843072
    'wavelet-HHH_glszm_GrayLevelNonUniformityNormalized_PET', 0.70364919
    'square_glcm_Correlation_CT' 4.29338334

C=7.054802310718645
AUC on Train Set: 0.8555102040816327
AUC on Test Set: 0.8431372549019608

  1. 放射組學(xué)諾模圖的建立和驗(yàn)證
    LASSO選出的臨床特征為'Age', 'diameter', 'L5'爆阶,諾莫圖系數(shù)如下:
    'Age', -0.01876038
    'diameter', 0.00950171
    'L5', 2.65506024
    'rad_sig' 0.90999272

Best C Value: 0.6135907273413173
AUC on Train Set: 0.9379591836734694
AUC on Test Set: 0.9313725490196078

20190330


如果要使用SMOTE,一定記得同步保留原訓(xùn)練集沙咏,對(duì)原訓(xùn)練集同步處理(像在測(cè)試集上做的一樣)辨图,方便最后統(tǒng)計(jì)結(jié)果(曲線、訓(xùn)練集上準(zhǔn)確率等)肢藐。

CT/PET 401
PET 2636
CT 1234

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末故河,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子吆豹,更是在濱河造成了極大的恐慌鱼的,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,427評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件痘煤,死亡現(xiàn)場(chǎng)離奇詭異凑阶,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)衷快,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門宙橱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人蘸拔,你說我怎么就攤上這事师郑。” “怎么了调窍?”我有些...
    開封第一講書人閱讀 165,747評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵宝冕,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我邓萨,道長(zhǎng)地梨,這世上最難降的妖魔是什么菊卷? 我笑而不...
    開封第一講書人閱讀 58,939評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮湿刽,結(jié)果婚禮上的烁,老公的妹妹穿的比我還像新娘褐耳。我一直安慰自己诈闺,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,955評(píng)論 6 392
  • 文/花漫 我一把揭開白布铃芦。 她就那樣靜靜地躺著雅镊,像睡著了一般。 火紅的嫁衣襯著肌膚如雪刃滓。 梳的紋絲不亂的頭發(fā)上仁烹,一...
    開封第一講書人閱讀 51,737評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音咧虎,去河邊找鬼卓缰。 笑死,一個(gè)胖子當(dāng)著我的面吹牛砰诵,可吹牛的內(nèi)容都是我干的征唬。 我是一名探鬼主播,決...
    沈念sama閱讀 40,448評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼茁彭,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼总寒!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起理肺,我...
    開封第一講書人閱讀 39,352評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤摄闸,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后妹萨,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體年枕,經(jīng)...
    沈念sama閱讀 45,834評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,992評(píng)論 3 338
  • 正文 我和宋清朗相戀三年乎完,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了熏兄。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,133評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡囱怕,死狀恐怖霍弹,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情娃弓,我是刑警寧澤典格,帶...
    沈念sama閱讀 35,815評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站台丛,受9級(jí)特大地震影響耍缴,放射性物質(zhì)發(fā)生泄漏砾肺。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,477評(píng)論 3 331
  • 文/蒙蒙 一防嗡、第九天 我趴在偏房一處隱蔽的房頂上張望变汪。 院中可真熱鬧,春花似錦蚁趁、人聲如沸裙盾。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)番官。三九已至,卻和暖如春钢属,著一層夾襖步出監(jiān)牢的瞬間徘熔,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工淆党, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留酷师,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,398評(píng)論 3 373
  • 正文 我出身青樓染乌,卻偏偏與公主長(zhǎng)得像山孔,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子慕匠,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,077評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容