藥物反應可以由基因組特性預測
2015發(fā)在BMC Cancer的文章:Anticancer drug sensitivity prediction in cell lines from baseline gene expression through recursive feature selection
主要就是整合了 Cancer Cell Line Encyclopedia (CCLE) 和 Cancer Genome Project (CGP) 這兩個數據庫娃属,使用 支持向量機來預測藥物反應。
- CCLE (www.broadinstitute.org/ccle/)
- CGP (www.cancerrxgene.org/)
值得一提的是我在我的生信菜鳥團博客也介紹過它們:
通常人們關心的是藥物在病人的反應是敏感還是耐受营曼,而不是具體的某個值猜谚,所以是二分類變量,而不是回歸。所以作者把CCLE數據庫的藥敏反應值劃分為3個等級拥刻,構建SVM模型,可以得到80%的accuracy父泳,還使用了CGP數據庫的同樣的藥物來做驗證般哼,效果也很不錯吴汪。
藥物反應分類
對每一個藥物來說,各種細胞系的反應值先zscore蒸眠,然后根據0.8倍的sd來進行分類漾橙,分成該藥物敏感的組,還有耐藥的組楞卡,處于中間值的那些細胞系剔走霜运。
去除批次差異
對 Cancer Cell Line Encyclopedia (CCLE) 和 Cancer Genome Project (CGP) 這兩個數據庫的表達矩陣,使用ComBat來去除批次效應臀晃。
機器學習基本概念
混淆矩陣
True Positive(真正觉渴,TP):將正類預測為正類數
True Negative(真負,TN):將負類預測為負類數
False Positive(假正徽惋,FP):將負類預測為正類數→誤報 (Type I error)
False Negative(假負,FN):將正類預測為負類數→漏報 (Type II error)
1座韵、準確率(Accuracy)
準確率是我們最常見的評價指標险绘,而且很容易理解,就是被分對的樣本數除以所有的樣本數誉碴,通常來說宦棺,正確率越高,分類器越好黔帕。 在正負樣本不平衡的情況下代咸,準確率這個評價指標有很大的缺陷。
2成黄、錯誤率(Error rate)
錯誤率則與準確率相反呐芥,描述被分類器錯分的比例,error rate = (FP+FN)/(TP+TN+FP+FN)奋岁,對某一個實例來說思瘟,分對與分錯是互斥事件,所以accuracy =1 - error rate闻伶。
3滨攻、靈敏度(sensitive)
sensitive = TP/P,表示的是所有正例中被分對的比例蓝翰,衡量了分類器對正例的識別能力光绕。
4、特效度(specificity)
specificity = TN/N畜份,表示的是所有負例中被分對的比例诞帐,衡量了分類器對負例的識別能力。
5漂坏、精確率景埃、精度(Precision)
表示被分為正例的示例中實際為正例的比例媒至。
6、召回率(recall)
召回率是覆蓋面的度量谷徙,度量有多個正例被分為正例拒啰,recall=TP/(TP+FN)=TP/P=sensitive,可以看到召回率與靈敏度是一樣的完慧。
7谋旦、綜合評價指標(F-Measure)
P和R指標有時候會出現的矛盾的情況,這樣就需要綜合考慮他們屈尼,最常見的方法就是F-Measure(又稱為F-Score)册着。
F-Measure是Precision和Recall加權調和平均
8、其他評價指標
計算速度:分類器訓練和預測需要的時間脾歧;
魯棒性:處理缺失值和異常值的能力衷咽;
可擴展性:處理大數據集的能力;
可解釋性:分類器的預測標準的可理解性帮哈,像決策樹產生的規(guī)則就是很容易理解的伴找,而神經網絡的一堆參數就不好理解,我們只好把它看成一個黑盒子兄纺。
參考:https://blog.csdn.net/quiet_girl/article/details/70830796
每個藥物都有單獨的SVM模型
模型效果還不錯大溜,By 10-fold cross validation, accuracies of our model are around 80 % for most drugs in CCLE, and the highest accuracy of 91.73 % was attained for a pathway targeted compound, the topoisomerase 1 inhibitor Irinotecan.
這里作者只是統(tǒng)計了accuracy,其實蠻片面的估脆,應該是考慮其它機器學習指標钦奋。
而且,上面的是在自己的數據集做驗證疙赠,還應該在另外一個獨立的數據集繼續(xù)驗證SVM模型效果付材。
雖然只測試了11個藥物,但是效果慘不忍睹:
- 3 of these 11 drugs (AZD6244, Erlotinib and PD-0325901) achieve a relatively good performance of AUC from 0.57 to 0.7
- the rest eight drugs only give the AUC values around 0.5
同時棺聊,作者也把順序反過來分析了伞租,在CGP數據庫來構建模型,然后去CCLE數據庫驗證限佩。
還有就是兩個模型都會對自己的數據庫的基因進行排序葵诈,比較了兩次構建模型的top1500基因的重合情況,如下:
個人覺得不好祟同。
而且作喘,這篇文章很明顯比不上 Clinical drug response can be predicted using baseline gene expression levels and in vitro drug sensitivity in cell lines ,Genome Biology 2014 https://doi.org/10.1186/gb-2014-15-3-r47
(文章轉自jimmy的2018年閱讀文獻筆記)
生信基礎知識大全系列:生信基礎知識100講
史上最強的生信自學環(huán)境準備課來啦T纬恰泞坦! 7次改版,11節(jié)課程砖顷,14K的講稿贰锁,30個夜晚打磨赃梧,100頁PPT的課程。
如果需要組裝自己的服務器豌熄;代辦生物信息學服務器
如果需要幫忙下載海外數據(GEO/TCGA/GTEx等等)授嘀,點我?
如果需要線下輔導及培訓锣险,看招學徒
如果需要個人電腦:個人計算機推薦
如果需要置辦生物信息學書籍蹄皱,看:生信人必備書單
如果需要實習崗位:實習職位發(fā)布
如果需要售后:點我