腫瘤干性細胞指數(shù)si是一種描述腫瘤細胞與干細胞相似程度的指標,可以認為是CSCs的量化蚁孔。干細胞具有自我更新以及治療耐藥性的特征奶赔,在癌癥中發(fā)揮著重要作用。
2018年發(fā)表在Cell上面的一篇文章采用創(chuàng)新的單類邏輯回歸(OCLR)機器學(xué)習(xí)算法杠氢,通過對干細胞轉(zhuǎn)錄組站刑、甲基化組和轉(zhuǎn)錄因子結(jié)合位點的多平臺分析,得到了兩個獨立的干性指數(shù)鼻百,其中mRNAsi可以反映干細胞的基因表達特征绞旅,另一種mDNAsi則反映干細胞的表觀遺傳特征。目前研究腫瘤干細胞大多通過RNA計算的mRNAsi進行相似程度評估温艇,因此本次我們也針對mRNAsi的OCLR計算過程進行分享玻靡。
??流程大體思路如下:
利用PCBC數(shù)據(jù)庫中的干細胞類群及其分化的外胚層、中胚層和內(nèi)胚層祖細胞信息作為初始數(shù)據(jù)集中贝,使用OCLR算法訓(xùn)練推導(dǎo)出干性指數(shù)。然后將基于OCLR的計算得到的干性指數(shù)對應(yīng)的轉(zhuǎn)錄組表達量應(yīng)用于TCGA數(shù)據(jù)集臼朗,計算每個樣本的mRNAsi邻寿。每個干性指數(shù)(si)的范圍從低(0)到高(1)。
一视哑、加載相應(yīng)R包
二绣否、創(chuàng)建genes2hugo函數(shù)
該函數(shù)可以將Ensemble ID轉(zhuǎn)換為HUGO Symbols。
三挡毅、創(chuàng)建模型訓(xùn)練函數(shù)
首先我們創(chuàng)建函數(shù)main.train對新數(shù)據(jù)進行訓(xùn)練蒜撮,該函數(shù)的流程分為以下幾步:
1)利用synGet獲取PCBC數(shù)據(jù),包括兩種數(shù)據(jù),其中X是一個由229個細胞樣本的13189個基因構(gòu)成的表達矩陣段磨,Y是一個含有301個觀測值的單變量數(shù)據(jù)框取逾;
2)從 metadata 獲取 labels;
3)調(diào)用之前創(chuàng)建的genes2hugo函數(shù)苹支,將Ensembl ID轉(zhuǎn)換為HUGO Symbols砾隅;
4)計算每個基因的平均值中心(初始值-平均值);
5)根據(jù)y是否等于“SC”判斷干細胞并將所有樣本劃分為干細胞組X.tr和非干細胞組X.bk债蜜;
6)執(zhí)行g(shù)elnet函數(shù)來訓(xùn)練模型晴埂,gelnet函數(shù)使用協(xié)調(diào)下降的迭代方法,具有四個主要的參數(shù):
# X: 由( X.r?)轉(zhuǎn)置后的矩陣
# y: 如果為`NULL`則為一類模型?
# l1: L1范數(shù)懲罰的系數(shù)=> 0?
# l2: L2范數(shù)懲罰的系數(shù)=> 1
7)將signature文件存儲為pcbc-stemsig.tsv寻定;
8)使用留一法交叉驗證測試模型的準確性儒洛。
函數(shù)main.train完整代碼如下:
四、創(chuàng)建預(yù)測函數(shù)
接下來創(chuàng)建main.predict函數(shù)預(yù)測未知樣本的mRNAsi指數(shù)狼速,該函數(shù)的流程分為以下幾步:
1)讀入上個模塊中保存的signature文件琅锻,同時讀入樣本的基因表達數(shù)據(jù)(該示例從synapse中獲取表達數(shù)據(jù));
2)過濾基因ID唐含,保留僅在signature中包含的HUGO symbols, 并將表達矩陣X轉(zhuǎn)為矩陣形式浅浮,其中行為基因名,列為樣本名稱捷枯;
3)使用Spearman相關(guān)性對矩陣`X`評分滚秩,并將評分標準化為0到1之間;
4)分數(shù)輸出到文件mRNA_StemScore.tsv淮捆。
函數(shù)main.predict完整代碼如下:
五郁油、執(zhí)行完整分析
在創(chuàng)建完上述函數(shù)main.train和main.predict后,我們使用main函數(shù)將這兩個函數(shù)打包攀痊,最后運行main函數(shù)執(zhí)行完整的分析桐腌。
參考文獻:Malta TM, Sokolov A, Gentles AJ, Burzykowski T, Poisson L, Weinstein JN, Kamińska B, Huelsken J, Omberg L, Gevaert O, Colaprico A, Czerwińska P, Mazurek S, Mishra L, Heyn H, Krasnitz A, Godwin AK, Lazar AJ; Cancer Genome Atlas Research Network, Stuart JM, Hoadley KA, Laird PW, Noushmehr H, Wiznerowicz M. Machine Learning Identifies Stemness Features Associated with Oncogenic Dedifferentiation. Cell. 2018 Apr 5;173(2):338-354.e15. doi: 10.1016/j.cell.2018.03.034. PMID: 29625051; PMCID: PMC5902191.