20190122
部分病例的分化程度、分型信息缺失 Done
PET 的 101 108 113三個(gè)病例的影像有問題 和其他病人的影像都不一樣 Done
CT 的 88 173 兩個(gè)病例恩静,原圖像和分割不匹配 Done
101號(hào)病例的部位是1+2+4从媚,但是影像上只標(biāo)了一個(gè) Done
20190123
42號(hào)病例蝌蹂,SE2圖像和分割不匹配 Done
20190124
準(zhǔn)備優(yōu)化數(shù)據(jù)的形式款慨,利用DataFrameMapper
已經(jīng)利用imbalance_learn胖烛,應(yīng)對(duì)類別不平衡問題:SMOTE挫以。使用SMOTE后者蠕,過擬合仍嚴(yán)重。
3-4個(gè)特征就能在訓(xùn)練集上達(dá)到0.9以上的AUC掐松,而測(cè)試集只有0.5踱侣,不知道為什么感覺大部分時(shí)候在0.5以下
今天的收獲:
1.如果過擬合的話,在特征初篩的時(shí)候大磺,盡量不使用有監(jiān)督的初篩(如u檢驗(yàn)抡句、mrmr),使用有監(jiān)督的特征選擇時(shí)交叉驗(yàn)證杠愧。
- SVM(即使是線性核)相比于logistic更容易過擬合
和F師兄討論后決定步驟:
- 分析每個(gè)臨床特征對(duì)標(biāo)簽的顯著性(p值)
- 單個(gè)臨床特征待榔、單個(gè)影像特征建模,跑出來一個(gè)表格流济,分析單個(gè)特征的效能
- 重新決定訓(xùn)練集锐锣、驗(yàn)證集比例(如2:1)腌闯,調(diào)出一個(gè)比較好的結(jié)果
- 反復(fù)重新劃分樣本集,驗(yàn)證訓(xùn)練方法的魯棒性
20190125
完成了臨床特征對(duì)標(biāo)簽的顯著性檢驗(yàn)(p值)雕憔,只有“部位”顯著
完成了單個(gè)特征建模绑嘹,跑出來一個(gè)表格,分析單個(gè)特征的效能橘茉,但是發(fā)現(xiàn)一個(gè)奇怪的現(xiàn)象:
對(duì)每個(gè)特征工腋,分別隨機(jī)劃分訓(xùn)練及測(cè)試集100次,每次劃分建立一個(gè)logistic模型畅卓,計(jì)算測(cè)試集上的AUC值擅腰。
然后發(fā)現(xiàn)有些特征每次AUC都在0.5以下(0.25-0.4)。查了查都說因?yàn)槭秦?fù)相關(guān)翁潘,取個(gè)反就行了趁冈,但是我覺得logstic應(yīng)該能把這種負(fù)相關(guān)學(xué)習(xí)出來吧。問了師兄們也沒有結(jié)果拜马。
F師兄告訴我渗勘,單個(gè)特征測(cè)試不用分訓(xùn)練和驗(yàn)證,直接算AUC就行俩莽,因?yàn)橄鄬?duì)關(guān)系是不變的旺坠。于是改為直接計(jì)算AUC。
http://www.reibang.com/p/90106243d231
完成上述兩個(gè)步驟后發(fā)現(xiàn)扮超,還是有幾個(gè)特征的AUC>0.7取刃,p<0.05,希望組合起來能獲得好一些的效果出刷。
20190122
部分病例的分化程度璧疗、分型信息缺失 Done
PET 的 101 108 113三個(gè)病例的影像有問題 和其他病人的影像都不一樣 Done
CT 的 88 173 兩個(gè)病例,原圖像和分割不匹配 Done
101號(hào)病例的部位是1+2+4馁龟,但是影像上只標(biāo)了一個(gè) Done
20190123
42號(hào)病例崩侠,SE2圖像和分割不匹配 Done
20190124
準(zhǔn)備優(yōu)化數(shù)據(jù)的形式,利用DataFrameMapper
已經(jīng)利用imbalance_learn坷檩,應(yīng)對(duì)類別不平衡問題:SMOTE却音。使用SMOTE后,過擬合仍嚴(yán)重淌喻。
3-4個(gè)特征就能在訓(xùn)練集上達(dá)到0.9以上的AUC僧家,而測(cè)試集只有0.5,不知道為什么感覺大部分時(shí)候在0.5以下
今天的收獲:
1.如果過擬合的話裸删,在特征初篩的時(shí)候,盡量不使用有監(jiān)督的初篩(如u檢驗(yàn)阵赠、mrmr)涯塔,使用有監(jiān)督的特征選擇時(shí)交叉驗(yàn)證肌稻。
- SVM(即使是線性核)相比于logistic更容易過擬合
和F師兄討論后決定步驟:
- 分析每個(gè)臨床特征對(duì)標(biāo)簽的顯著性(p值)
- 單個(gè)臨床特征、單個(gè)影像特征建模匕荸,跑出來一個(gè)表格爹谭,分析單個(gè)特征的效能
- 重新決定訓(xùn)練集、驗(yàn)證集比例(如2:1)榛搔,調(diào)出一個(gè)比較好的結(jié)果
- 反復(fù)重新劃分樣本集诺凡,驗(yàn)證訓(xùn)練方法的魯棒性
20190125
完成了臨床特征對(duì)標(biāo)簽的顯著性檢驗(yàn)(p值),只有“部位”顯著
完成了單個(gè)特征建模践惑,跑出來一個(gè)表格腹泌,分析單個(gè)特征的效能,但是發(fā)現(xiàn)一個(gè)奇怪的現(xiàn)象:
對(duì)每個(gè)特征尔觉,分別隨機(jī)劃分訓(xùn)練及測(cè)試集100次凉袱,每次劃分建立一個(gè)logistic模型,計(jì)算測(cè)試集上的AUC值侦铜。
然后發(fā)現(xiàn)有些特征每次AUC都在0.5以下(0.25-0.4)专甩。查了查都說因?yàn)槭秦?fù)相關(guān),取個(gè)反就行了钉稍,但是我覺得logstic應(yīng)該能把這種負(fù)相關(guān)學(xué)習(xí)出來吧涤躲。問了師兄們也沒有結(jié)果。
F師兄告訴我贡未,單個(gè)特征測(cè)試不用分訓(xùn)練和驗(yàn)證篓叶,直接算AUC就行,因?yàn)橄鄬?duì)關(guān)系是不變的羞秤。于是改為直接計(jì)算AUC缸托。
http://www.reibang.com/p/90106243d231
完成上述兩個(gè)步驟后發(fā)現(xiàn),還是有幾個(gè)特征的AUC>0.7瘾蛋,p<0.05俐镐,希望組合起來能獲得好一些的效果。
20190217
重新開工哺哼,初步完成了步驟3和4佩抹。
步驟如下:
- 按1:1或2:1重復(fù)劃分訓(xùn)練集、測(cè)試集
- SMOTE重采樣
- 特征預(yù)處理取董,刪除包含一定量缺失值棍苹、大量相同值缤底、相關(guān)系數(shù)高的特征
- mRMR特征排序選擇斋攀,保留前10個(gè)或前20個(gè)特征
- LASSO特征選擇
- 采用邏輯回歸建模,進(jìn)行GridSearch選擇參數(shù)
可以調(diào)出比較好看的結(jié)果(詳見"結(jié)果.txt")哪轿,如:
(23, 8) 401 0.32 10 0.8431372549019608
(35, 7) 416 0.49 10 0.8034188034188035
至于訓(xùn)練方法的魯棒性:
不到一半的次數(shù)(0.43)里,測(cè)試集的AUC大于0.55栏豺,0.2的大于0.6彬碱,0.054的大于0.7,也就是說奥洼,基本可以表明標(biāo)簽和影像無(wú)關(guān)巷疼。
20190226
以上結(jié)果和實(shí)驗(yàn)都是在“CT+PET”的特征上做的
發(fā)現(xiàn)AUC結(jié)果比較好(0.8以上)的樣本集劃分方式,臨床特征都很不平衡灵奖,要么臨床特征分布不平衡嚼沿,要么auc結(jié)果很差。
醫(yī)生說先忽略樣本臨床特征不平衡的問題瓷患,繼續(xù)按照這個(gè)做骡尽。這種數(shù)據(jù)真的沒什么意義。
調(diào)好CT+PET的結(jié)果:
- 放射組學(xué)標(biāo)簽的構(gòu)建和驗(yàn)證
采用LogisticRegression模型尉尾,模型采用的特征名及其系數(shù)為:
'diagnostics_Image-original_Mean', -0.33110345
'exponential_glcm_Correlation_CT', -0.72360895
'exponential_glszm_ZoneVariance_CT', -0.92127714
'square_glszm_GrayLevelNonUniformityNormalized_CT', -3.5461045
'wavelet-HHH_glszm_SizeZoneNonUniformity_PET', -0.39414552
'wavelet-HHL_glszm_SizeZoneNonUniformity_PET', -0.09843072
'wavelet-HHH_glszm_GrayLevelNonUniformityNormalized_PET', 0.70364919
'square_glcm_Correlation_CT' 4.29338334
C=7.054802310718645
AUC on Train Set: 0.8555102040816327
AUC on Test Set: 0.8431372549019608
- 放射組學(xué)諾模圖的建立和驗(yàn)證
LASSO選出的臨床特征為'Age', 'diameter', 'L5'爆阶,諾莫圖系數(shù)如下:
'Age', -0.01876038
'diameter', 0.00950171
'L5', 2.65506024
'rad_sig' 0.90999272
Best C Value: 0.6135907273413173
AUC on Train Set: 0.9379591836734694
AUC on Test Set: 0.9313725490196078
20190330
如果要使用SMOTE,一定記得同步保留原訓(xùn)練集沙咏,對(duì)原訓(xùn)練集同步處理(像在測(cè)試集上做的一樣)辨图,方便最后統(tǒng)計(jì)結(jié)果(曲線、訓(xùn)練集上準(zhǔn)確率等)肢藐。
CT/PET 401
PET 2636
CT 1234