為了個性化的預(yù)測患者的患病情況(生存情況)骇径,都會使用影像組學(xué)分?jǐn)?shù)來進(jìn)行評估躯肌。但是分類器如何產(chǎn)生rad score呢?
最常見的就是lasso-logistic回歸破衔,使用lasso回歸的系數(shù)(coef)與對應(yīng)特征的線性組合作為評分羡榴,這樣每位患者只要將自己的特征的分?jǐn)?shù)帶入公式,就能計算出自己的radscore得分运敢,進(jìn)而從列線圖中知曉自己的疾病預(yù)測結(jié)果。
然而忠售,lasso回歸不是萬能的传惠,對于我所處理的數(shù)據(jù)(100多個樣本,1000多個特征)稻扬,屬于n<<p的情形卦方,實(shí)測lasso的表現(xiàn)很糟糕,并不能有效的降維泰佳。
對于這樣的高維度數(shù)據(jù)盼砍,使用支持向量機(jī)會是更好的選擇,事實(shí)證明逝她,SVM的確能獲得比lasso更好的AUC且更不容易過擬合浇坐。
然而使用SVM怎么計算radscore呢?
開始由于并不了解SVM的數(shù)學(xué)原理黔宛,僅僅會調(diào)包一直也沒有明白如何計算近刘。后來學(xué)習(xí)了一下相關(guān)的數(shù)學(xué)原理,可以得出臀晃,在使用線性linear核函數(shù)kernel的時候觉渴,我們是可以獲得模型中的coef_的,這個參數(shù)和上面lasso的一樣徽惋,計算coef_和對應(yīng)特征的線性組合可以作為得到radscore的公式案淋。
此外,吳恩達(dá)的機(jī)器學(xué)習(xí)課程中也提到了
一種選擇是不使用kernel(也稱為linear kernel),直接使用x: 這種情況是當(dāng)我們的n很大(即維度很高险绘,features很多)但是訓(xùn)練樣本卻很少的情況下踢京,我們一般不希望畫出很復(fù)雜的邊界線(因?yàn)闃颖竞苌儆辏嫵龊軓?fù)雜的邊界線就會過擬合),而是用線性的邊界線漱挚。
一種選擇是使用Gaussian kernel: 這種情況需要確定σ2(平衡bias還是variance)翔烁。這種情況是當(dāng)x的維度不高,但是樣本集很多的情況下旨涝。如上圖中蹬屹,n=2,但是m卻很多,需要一個類似于圓的邊界線白华。(即需要一個復(fù)雜的邊界)
如果features的范圍差別很大慨默,在執(zhí)行kernel之前要使用feature scaling
雖然我的數(shù)據(jù)符合維度很高,訓(xùn)練樣本卻很少弧腥,但是當(dāng)我們繪制出了一些特征的散點(diǎn)圖發(fā)現(xiàn)厦取,大量的特征都是難以用線性方式區(qū)分的,在嘗試過程中管搪,使用linear kernel 得到的結(jié)果非常糟糕虾攻,AUC一度維持在50左右。
所以只能使用gaussian kernel,這樣的效果確實(shí)要比線性核函數(shù)好很多更鲁,但是由于數(shù)據(jù)的特征本身質(zhì)量很差霎箍,醫(yī)生方面又根本對數(shù)據(jù)情況和數(shù)據(jù)內(nèi)容不了解(相當(dāng)于甲方給乙方數(shù)據(jù),然而甲方連數(shù)據(jù)是什么都不曉得澡为,真的不知道這種醫(yī)生是怎么當(dāng)上的)漂坏,效果也很有限,
可以看到媒至,在進(jìn)行特征的重要性排序時顶别,最佳的ROC也只有0.62,在使用了RBF kernel以后拒啰,可以將模型的AUC最高提升至0.67驯绎。
當(dāng)然,特征工程部分十分粗糙图呢,考慮接下來把之前刪掉的一些數(shù)據(jù)進(jìn)行特征值填補(bǔ)來增加數(shù)據(jù)集条篷。
但是一個問題就是RBF kernel是非線性核,是不可能得出一個可以用來進(jìn)行線性組合的coef_的蛤织,最早使用SVM radscore方法的北京大學(xué)協(xié)和醫(yī)學(xué)院的論文中和后續(xù)的浙大論文中都是適用的線性核計算的radscore赴叹,但是我們的數(shù)據(jù)質(zhì)量是沒法使用線性核的,那么
優(yōu)化數(shù)據(jù)質(zhì)量指蚜,將特征的有效性顯著提高
不使用radscore乞巧,只做出一個模型的auc結(jié)果,將后續(xù)工作寫到展望中摊鸡,迫不得已绽媒。
Liu Z , Zhang X Y , Shi Y J , et al. Radiomics Analysis for Evaluation of Pathological Complete Response to Neoadjuvant Chemoradiotherapy in Locally Advanced Rectal Cancer[J]. Clinical Cancer Research, 2017:clincanres.1038.2017.
得到的結(jié)論就是如果想要使用svm蚕冬,必須使用線性方式來得到coef_,我覺得應(yīng)該是我了解得還不夠,應(yīng)該有其他方式進(jìn)行轉(zhuǎn)化吧是辕,希望研究影像組學(xué)的同行前輩有發(fā)現(xiàn)可以一起討論囤热。