1901脈管侵犯日志

20190122

部分病例的分化程度、分型信息缺失 Done
PET 的 101 108 113三個(gè)病例的影像有問題和其他病人的影像都不一樣 Done
CT 的 88 173 兩個(gè)病例恩静，原圖像和分割不匹配 Done
101號(hào)病例的部位是1+2+4从媚，但是影像上只標(biāo)了一個(gè) Done

20190123

42號(hào)病例蝌蹂，SE2圖像和分割不匹配 Done

20190124

準(zhǔn)備優(yōu)化數(shù)據(jù)的形式款慨，利用DataFrameMapper
已經(jīng)利用imbalance_learn胖烛，應(yīng)對(duì)類別不平衡問題：SMOTE挫以。使用SMOTE后者蠕，過擬合仍嚴(yán)重。
3-4個(gè)特征就能在訓(xùn)練集上達(dá)到0.9以上的AUC掐松，而測(cè)試集只有0.5踱侣，不知道為什么感覺大部分時(shí)候在0.5以下

今天的收獲：

1.如果過擬合的話，在特征初篩的時(shí)候大磺，盡量不使用有監(jiān)督的初篩（如u檢驗(yàn)抡句、mrmr），使用有監(jiān)督的特征選擇時(shí)交叉驗(yàn)證杠愧。

SVM（即使是線性核）相比于logistic更容易過擬合

和F師兄討論后決定步驟：

分析每個(gè)臨床特征對(duì)標(biāo)簽的顯著性（p值）
單個(gè)臨床特征待榔、單個(gè)影像特征建模，跑出來一個(gè)表格流济，分析單個(gè)特征的效能
重新決定訓(xùn)練集锐锣、驗(yàn)證集比例（如2：1）腌闯，調(diào)出一個(gè)比較好的結(jié)果
反復(fù)重新劃分樣本集，驗(yàn)證訓(xùn)練方法的魯棒性

20190125

完成了臨床特征對(duì)標(biāo)簽的顯著性檢驗(yàn)（p值）雕憔，只有“部位”顯著
完成了單個(gè)特征建模绑嘹，跑出來一個(gè)表格，分析單個(gè)特征的效能橘茉，但是發(fā)現(xiàn)一個(gè)奇怪的現(xiàn)象：
對(duì)每個(gè)特征工腋，分別隨機(jī)劃分訓(xùn)練及測(cè)試集100次，每次劃分建立一個(gè)logistic模型畅卓，計(jì)算測(cè)試集上的AUC值擅腰。
然后發(fā)現(xiàn)有些特征每次AUC都在0.5以下（0.25-0.4）。查了查都說因?yàn)槭秦?fù)相關(guān)翁潘，取個(gè)反就行了趁冈，但是我覺得logstic應(yīng)該能把這種負(fù)相關(guān)學(xué)習(xí)出來吧。問了師兄們也沒有結(jié)果拜马。
F師兄告訴我渗勘，單個(gè)特征測(cè)試不用分訓(xùn)練和驗(yàn)證，直接算AUC就行俩莽，因?yàn)橄鄬?duì)關(guān)系是不變的旺坠。于是改為直接計(jì)算AUC。
http://www.reibang.com/p/90106243d231
完成上述兩個(gè)步驟后發(fā)現(xiàn)扮超，還是有幾個(gè)特征的AUC>0.7取刃，p<0.05，希望組合起來能獲得好一些的效果出刷。

20190122

部分病例的分化程度璧疗、分型信息缺失 Done
PET 的 101 108 113三個(gè)病例的影像有問題和其他病人的影像都不一樣 Done
CT 的 88 173 兩個(gè)病例，原圖像和分割不匹配 Done
101號(hào)病例的部位是1+2+4馁龟，但是影像上只標(biāo)了一個(gè) Done

20190123

42號(hào)病例崩侠，SE2圖像和分割不匹配 Done

20190124

準(zhǔn)備優(yōu)化數(shù)據(jù)的形式，利用DataFrameMapper
已經(jīng)利用imbalance_learn坷檩，應(yīng)對(duì)類別不平衡問題：SMOTE却音。使用SMOTE后，過擬合仍嚴(yán)重淌喻。
3-4個(gè)特征就能在訓(xùn)練集上達(dá)到0.9以上的AUC僧家，而測(cè)試集只有0.5，不知道為什么感覺大部分時(shí)候在0.5以下

今天的收獲：
1.如果過擬合的話裸删，在特征初篩的時(shí)候，盡量不使用有監(jiān)督的初篩（如u檢驗(yàn)阵赠、mrmr）涯塔，使用有監(jiān)督的特征選擇時(shí)交叉驗(yàn)證肌稻。

SVM（即使是線性核）相比于logistic更容易過擬合

和F師兄討論后決定步驟：

分析每個(gè)臨床特征對(duì)標(biāo)簽的顯著性（p值）
單個(gè)臨床特征、單個(gè)影像特征建模匕荸，跑出來一個(gè)表格爹谭，分析單個(gè)特征的效能
重新決定訓(xùn)練集、驗(yàn)證集比例（如2：1）榛搔，調(diào)出一個(gè)比較好的結(jié)果
反復(fù)重新劃分樣本集诺凡，驗(yàn)證訓(xùn)練方法的魯棒性

20190125

完成了臨床特征對(duì)標(biāo)簽的顯著性檢驗(yàn)（p值），只有“部位”顯著
完成了單個(gè)特征建模践惑，跑出來一個(gè)表格腹泌，分析單個(gè)特征的效能，但是發(fā)現(xiàn)一個(gè)奇怪的現(xiàn)象：
對(duì)每個(gè)特征尔觉，分別隨機(jī)劃分訓(xùn)練及測(cè)試集100次凉袱，每次劃分建立一個(gè)logistic模型，計(jì)算測(cè)試集上的AUC值侦铜。
然后發(fā)現(xiàn)有些特征每次AUC都在0.5以下（0.25-0.4）专甩。查了查都說因?yàn)槭秦?fù)相關(guān)，取個(gè)反就行了钉稍，但是我覺得logstic應(yīng)該能把這種負(fù)相關(guān)學(xué)習(xí)出來吧涤躲。問了師兄們也沒有結(jié)果。
F師兄告訴我贡未，單個(gè)特征測(cè)試不用分訓(xùn)練和驗(yàn)證篓叶，直接算AUC就行，因?yàn)橄鄬?duì)關(guān)系是不變的羞秤。于是改為直接計(jì)算AUC缸托。
http://www.reibang.com/p/90106243d231
完成上述兩個(gè)步驟后發(fā)現(xiàn)，還是有幾個(gè)特征的AUC>0.7瘾蛋，p<0.05俐镐，希望組合起來能獲得好一些的效果。

20190217

重新開工哺哼，初步完成了步驟3和4佩抹。
步驟如下：

按1：1或2：1重復(fù)劃分訓(xùn)練集、測(cè)試集
SMOTE重采樣
特征預(yù)處理取董，刪除包含一定量缺失值棍苹、大量相同值缤底、相關(guān)系數(shù)高的特征
mRMR特征排序選擇斋攀，保留前10個(gè)或前20個(gè)特征
LASSO特征選擇
采用邏輯回歸建模，進(jìn)行GridSearch選擇參數(shù)
可以調(diào)出比較好看的結(jié)果（詳見"結(jié)果.txt"）哪轿，如：
(23, 8) 401 0.32 10 0.8431372549019608
(35, 7) 416 0.49 10 0.8034188034188035

至于訓(xùn)練方法的魯棒性：
不到一半的次數(shù)（0.43）里，測(cè)試集的AUC大于0.55栏豺，0.2的大于0.6彬碱，0.054的大于0.7，也就是說奥洼，基本可以表明標(biāo)簽和影像無(wú)關(guān)巷疼。

20190226

以上結(jié)果和實(shí)驗(yàn)都是在“CT+PET”的特征上做的
發(fā)現(xiàn)AUC結(jié)果比較好（0.8以上）的樣本集劃分方式，臨床特征都很不平衡灵奖，要么臨床特征分布不平衡嚼沿，要么auc結(jié)果很差。
醫(yī)生說先忽略樣本臨床特征不平衡的問題瓷患，繼續(xù)按照這個(gè)做骡尽。這種數(shù)據(jù)真的沒什么意義。
調(diào)好CT+PET的結(jié)果：

放射組學(xué)標(biāo)簽的構(gòu)建和驗(yàn)證
采用LogisticRegression模型尉尾，模型采用的特征名及其系數(shù)為：
'diagnostics_Image-original_Mean', -0.33110345
'exponential_glcm_Correlation_CT', -0.72360895
'exponential_glszm_ZoneVariance_CT', -0.92127714
'square_glszm_GrayLevelNonUniformityNormalized_CT', -3.5461045
'wavelet-HHH_glszm_SizeZoneNonUniformity_PET', -0.39414552
'wavelet-HHL_glszm_SizeZoneNonUniformity_PET', -0.09843072
'wavelet-HHH_glszm_GrayLevelNonUniformityNormalized_PET', 0.70364919
'square_glcm_Correlation_CT' 4.29338334

C=7.054802310718645
AUC on Train Set: 0.8555102040816327
AUC on Test Set: 0.8431372549019608

放射組學(xué)諾模圖的建立和驗(yàn)證
LASSO選出的臨床特征為'Age', 'diameter', 'L5'爆阶，諾莫圖系數(shù)如下：
'Age', -0.01876038
'diameter', 0.00950171
'L5', 2.65506024
'rad_sig' 0.90999272

Best C Value: 0.6135907273413173
AUC on Train Set: 0.9379591836734694
AUC on Test Set: 0.9313725490196078

20190330

如果要使用SMOTE，一定記得同步保留原訓(xùn)練集沙咏，對(duì)原訓(xùn)練集同步處理（像在測(cè)試集上做的一樣）辨图，方便最后統(tǒng)計(jì)結(jié)果（曲線、訓(xùn)練集上準(zhǔn)確率等）肢藐。

CT/PET 401
PET 2636
CT 1234

最后編輯于：2019.03.30 11:36:03

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末故河，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子吆豹，更是在濱河造成了極大的恐慌鱼的，老刑警劉巖，帶你破解...
沈念sama閱讀 219,427評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件痘煤，死亡現(xiàn)場(chǎng)離奇詭異凑阶，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)衷快，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,551評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門宙橱，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人蘸拔，你說我怎么就攤上這事师郑。” “怎么了调窍？”我有些...
開封第一講書人閱讀 165,747評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵宝冕，是天一觀的道長(zhǎng)。經(jīng)常有香客問我邓萨，道長(zhǎng)地梨，這世上最難降的妖魔是什么菊卷？我笑而不...
開封第一講書人閱讀 58,939評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮湿刽，結(jié)果婚禮上的烁，老公的妹妹穿的比我還像新娘褐耳。我一直安慰自己诈闺，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,955評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布铃芦。她就那樣靜靜地躺著雅镊，像睡著了一般。火紅的嫁衣襯著肌膚如雪刃滓。梳的紋絲不亂的頭發(fā)上仁烹，一...
開封第一講書人閱讀 51,737評(píng)論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音咧虎，去河邊找鬼卓缰。笑死，一個(gè)胖子當(dāng)著我的面吹牛砰诵，可吹牛的內(nèi)容都是我干的征唬。我是一名探鬼主播，決...
沈念sama閱讀 40,448評(píng)論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼茁彭，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼总寒！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起理肺，我...
開封第一講書人閱讀 39,352評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤摄闸，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后妹萨，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體年枕，經(jīng)...
沈念sama閱讀 45,834評(píng)論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,992評(píng)論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年乎完，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了熏兄。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,133評(píng)論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡囱怕，死狀恐怖霍弹，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情娃弓，我是刑警寧澤典格，帶...
沈念sama閱讀 35,815評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站台丛，受9級(jí)特大地震影響耍缴，放射性物質(zhì)發(fā)生泄漏砾肺。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,477評(píng)論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一防嗡、第九天我趴在偏房一處隱蔽的房頂上張望变汪。院中可真熱鬧，春花似錦蚁趁、人聲如沸裙盾。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,022評(píng)論 0贊 22
一樁弒父案他嫡，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)番官。三九已至，卻和暖如春钢属，著一層夾襖步出監(jiān)牢的瞬間徘熔，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,147評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國(guó)打工淆党，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留酷师，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,398評(píng)論 3贊 373
代替公主和親
正文我出身青樓染乌，卻偏偏與公主長(zhǎng)得像山孔，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子慕匠，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,077評(píng)論 2贊 355

1901脈管侵犯日志

20190122

20190123

20190124

今天的收獲：

和F師兄討論后決定步驟：

20190125

20190122

20190123

20190124

20190125

20190217

20190226

20190330

推薦閱讀更多精彩內(nèi)容