文章是Clinical Cancer Research的分?jǐn)?shù)在8-10分昧绣,本研究其實(shí)是建立在以前卵巢癌分型基礎(chǔ)上展開的,彌補(bǔ)了之前一些研究的缺陷,嚴(yán)格了入組標(biāo)準(zhǔn)和研究方法缺猛。第一,再過去的幾十年中HGSOC診斷標(biāo)準(zhǔn)已經(jīng)有了顯著的改變椭符,所以現(xiàn)有的公共數(shù)據(jù)庫(kù)中的數(shù)據(jù)極有可能混雜了其他類型的樣本荔燎,對(duì)于這一點(diǎn),本研究對(duì)樣本做了嚴(yán)格的篩選销钝,包括公共數(shù)據(jù)庫(kù)和自有數(shù)據(jù)有咨。第二,在過去的研究中主要用的都是無監(jiān)督聚類蒸健,而且各個(gè)研究的方法不用座享,得到的特定基因不同婉商,本研究是從無監(jiān)督聚類轉(zhuǎn)到有監(jiān)督分類模型。第三渣叛,本研究使用的NanoString平臺(tái)丈秩,在很多醫(yī)院的病理實(shí)驗(yàn)室中已經(jīng)使用,對(duì)卵巢癌分型進(jìn)入到臨床階段又近了一步淳衙。
(有個(gè)別翻譯有問題的地方請(qǐng)見諒~寫簡(jiǎn)書不是為了翻譯蘑秽,一是為了把自己看過的東西記錄下來,二是如果文章中有其他人需要的內(nèi)容可以去翻查箫攀,三是為了把自己的理解寫下來有問題的地方可以有人提問肠牲,多交流學(xué)習(xí))
一、背景
基于以前研究過靴跛,高級(jí)別漿液性卵巢癌分型包括:
C1/Mesenchymal (C1.MES):主要表現(xiàn)為間質(zhì)纖維化埂材,細(xì)胞質(zhì)基質(zhì)的成分高表達(dá),其預(yù)后效果差汤求。
C2/Immunoreactive (C2.IMM) :瘤內(nèi)CD3+/CD8+細(xì)胞浸潤(rùn)俏险,炎癥因子高表達(dá),預(yù)后較好扬绪。
C4/Differentiated (C4.DIF):瘤內(nèi)CA125/MUC16高表達(dá)竖独,臨床表征與C2.IMM無區(qū)別。
C5/Proliferative (C5.PRO):瘤體通常耗盡基質(zhì)和免疫組分挤牛,癌胚胎和干細(xì)胞基因高表達(dá)莹痢,預(yù)后不佳。
基因表達(dá)層面的HGSOC分子亞型在臨床上還沒有統(tǒng)一的分型標(biāo)準(zhǔn)墓赴,今年6月加拿大溫哥華總醫(yī)院竞膳,英國(guó)哥倫比亞大學(xué)卵巢癌研究中心聯(lián)合美國(guó)多所大學(xué)和研究機(jī)構(gòu)嘗試突破現(xiàn)有臨床局限性和基因分子優(yōu)勢(shì)性,提出PrOTYPE – 最小基因集HGSOC預(yù)測(cè)器诫硕。
二坦辟、前期工作
這部分不是我的研究重點(diǎn),只是大概寫幾點(diǎn)章办。關(guān)于樣本如何篩選锉走,病理檢查的標(biāo)準(zhǔn)和實(shí)驗(yàn)詳細(xì)流程,看補(bǔ)充文件比較好藕届。非專業(yè)人員也不敢保證翻譯的全部正確挪蹭,有興趣仔細(xì)研究,看原文休偶。我在這里提一下只是說明文章補(bǔ)充文件詳細(xì)寫了這部分內(nèi)容梁厉。
1.樣本來源:來自英國(guó),歐洲踏兜,澳大利亞词顾,加拿大和美國(guó)的卵巢腫瘤組織分析聯(lián)合會(huì)的20項(xiàng)研究提供了4071例用Nanostring分析的高級(jí)別漿液性輸卵管卵巢癌樣本(GSE135820)
2.樣本篩選和病理檢查:(1)至少一張有代表性的H&E玻片和福爾馬林固定的石蠟包埋組織(2)納入排除標(biāo)準(zhǔn):排除復(fù)發(fā)只冻,新輔助化療樣本,遠(yuǎn)端轉(zhuǎn)移和腹水计技。(3)在三個(gè)病理學(xué)中心進(jìn)行了病理學(xué)回顧:不列顛哥倫比亞癌癥研究中心喜德,美國(guó)洛杉磯的南加州大學(xué),澳大利亞墨爾本彼得麥卡倫癌癥中心垮媒,在每個(gè)中心安排婦科病理專家進(jìn)行病理檢查
3.額外的臨床數(shù)據(jù):年齡舍悯,分期,腫瘤細(xì)胞和壞死睡雇,BRCA1/BRCA2有害突變狀況萌衬,種族, 腫瘤浸潤(rùn)淋巴細(xì)胞(TIL)計(jì)數(shù)等
4.NanoString 基因選擇:NanoString CodeSte包含的513個(gè)基因來源:1.根據(jù)以前報(bào)道的排名靠前的差異基因它抱;2.以前亞型分類的監(jiān)督學(xué)習(xí)分類亞型特異基因秕豫;3.手動(dòng)回顧文獻(xiàn)確定的與亞型相關(guān)的常見分子途徑中的基因;4.在meta分析與預(yù)后價(jià)值和其他特定假設(shè)選擇基因观蓄;5.為確保轉(zhuǎn)錄組表達(dá)混移,我們標(biāo)記并包含了來自之前報(bào)道中99%相關(guān)基因表達(dá)簇的其他基因;6.五個(gè)管家基因侮穿,是指所有細(xì)胞中均要穩(wěn)定表達(dá)的一類基因歌径,其產(chǎn)物是對(duì)維持細(xì)胞基本生命活動(dòng)所必需的(RPL19,ACTB亲茅,PGK1回铛,SDHA,POLR1B)克锣。
5.RNA提取
6.NanoString過程
三茵肃、分析流程
? ? 大致講一下分析流程,后邊補(bǔ)充詳細(xì)一些的袭祟。分析包括了兩個(gè)獨(dú)立流程验残,圖2 A中兩組樣本array data是公共數(shù)據(jù)庫(kù)中樣本,按照入組條件過濾榕酒,然后進(jìn)行聚類胚膊,聚類分析用了九種故俐,之后通過K-mode方法將聚類結(jié)果合成一個(gè)結(jié)果想鹰。做分類模型,array數(shù)據(jù)集中的分類模型用了9種药版,TCGA分類模型用了5中辑舷,在驗(yàn)證集中驗(yàn)證選擇最好的模型,array data和TCGA兩組數(shù)據(jù)分別形成兩個(gè)模型槽片。從array數(shù)據(jù)中到Nanostring數(shù)據(jù)需要驗(yàn)證可移植性何缓,實(shí)驗(yàn)設(shè)計(jì)中有兩組數(shù)據(jù)可以驗(yàn)證肢础。之后將兩個(gè)模型同時(shí)對(duì)Nanostring數(shù)據(jù)進(jìn)行分類,選擇相同分類結(jié)果的樣本碌廓。對(duì)相同結(jié)果的樣本重新做分類模型传轰,篩選最小預(yù)測(cè)樣本集」绕牛基本思路是這個(gè)樣子慨蛙。
四、詳細(xì)流程
1.1Array data和TCGA data分類模型
????Array data有四種來源纪挎,在49個(gè)項(xiàng)目中的3437個(gè)樣本期贫。排除:92個(gè)重復(fù)或者非標(biāo)準(zhǔn)治療樣本,1121例診斷為非HGSOC樣本异袄,475個(gè)研究大小不符合(在樣本入組要求中通砍,有提到入組研究樣本量大于40)。剩余14個(gè)studies烤蜕,1650個(gè)樣本封孙,Training1 1322例,confirmation1 328例讽营;Confirmation2 98例樣本敛瓷。不同樣本集的批次校正選擇了XPN和EB兩種方法,檢驗(yàn)批次校正結(jié)果的方法采用了主成分分析(PCA)和主方差分析(PVCA斑匪,這個(gè)我沒查到呐籽,覺得是不是就是傳統(tǒng)方差分析)。之后對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化蚀瘸,之后是聚類分析狡蝶,聚類分析包括Kullback-Leibler散度的非負(fù)矩陣因子分解(NMF-LEE);歐幾里距離的Kmeans贮勃;Spearman距離的Kmeans聚類贪惹;Manhattan距離的Kmeans聚類;Euclidean距離的Kmeans聚類寂嘉;歐幾里距離的medoids聚類奏瞬;Spearman距離的medoids聚類;manhattan距離的medoids聚類泉孩;隱模式的塊聚類硼端。最后通過K-mode方法把九種聚類方法結(jié)果聚類成一種。批次效應(yīng)的檢驗(yàn)結(jié)果顯示XPN的結(jié)果更好(圖4)寓搬。
? ? 分類模型因?yàn)橐贜anostring中應(yīng)用珍昨,所以按照Nanostring中的513個(gè)基因進(jìn)行篩選。array中共有12536個(gè)基因通過,通過過濾條件刪除樣本最終剩余454個(gè)基因镣典。TCGA數(shù)據(jù)集中的12042個(gè)基因過濾完剩余438個(gè)基因在Nanostring基因集中兔毙。
????通過將其他基因減去關(guān)機(jī)基因的平均值進(jìn)行標(biāo)準(zhǔn)化,之后的基因表達(dá)量不再是絕對(duì)值兄春,而是相對(duì)于管家基因的相對(duì)量澎剥,方便移植到Nanostring平臺(tái)中。array data中分類模型用的是線性判別分析(LDA)赶舆、隨機(jī)森林(RF)肴裙、微陣列預(yù)測(cè)分析(PAM)、多元lasso回歸(MLR_lasso)涌乳,多元嶺回歸(MLR_ridge)蜻懦,K臨近分類(KNN),自適應(yīng)提升樹(adaboost)夕晓,貝葉斯(nbayes)宛乃,支持向量機(jī)模型(SVM)模型。TCGA數(shù)據(jù)中的分類模型為對(duì)角線線性判別分析(DLDA)蒸辆、隨機(jī)森林(RF)征炼、K臨近分類(KNN),支持向量機(jī)(SVM)躬贡,逐步提升(GBM)谆奥。
1.2模型驗(yàn)證
? ? ? ? ?Array data內(nèi)部驗(yàn)證是Trainning,外部驗(yàn)證兩個(gè)數(shù)據(jù)集是圖3中的confirmation1 328例拂玻;Confirmation2 98例樣本酸些。在Traning數(shù)據(jù)中top5的模型如圖7
? ?挑選了top5算法在confirmation1中測(cè)試, 首先使用ssGSEA在CLOVAR( 高級(jí)別漿液性卵巢癌的預(yù)后相關(guān)基因特征)中公開的基因集和澳大利亞卵巢癌研究(AOCS)數(shù)據(jù)集對(duì)樣本進(jìn)行分類檐蚜。ssGSEA定義的CLOVAR魄懂、AOCS定義一致的樣本占241/328。在一致的241個(gè)樣本中進(jìn)行分類闯第。五個(gè)模型的準(zhǔn)確度在0.747到0.784之間市栗。(這一步操作有疑問,猜測(cè)是通過CLOVAR中的和AOCS中關(guān)于每個(gè)亞型的特有基因咳短,用ssGSEA分別計(jì)算每個(gè)樣本的亞型賦分填帽,怎么做的分型真的是沒get到,有興趣看看圖8)在confirmation2中驗(yàn)證咙好,各模型的準(zhǔn)確率為adaboost:0.91篡腌;lasso:0.89,ridge:0.89敷扫;randomforest:0.88哀蘑,SVM:0.93诚卸,在預(yù)處理的NanoString data數(shù)據(jù)集中adaboost:0.79葵第;lasso:0.81,绘迁;ridge:0.81;randomforest:0.74;SVM:0.26卒密。
? ? ? ? TCGA樣本集驗(yàn)證缀台,由于TCGA下載到的數(shù)據(jù)就是歸一化和批次校正過的。所以不需要這些處理哮奇。亞型分類標(biāo)簽是從TCGA中獲得的膛腐。內(nèi)部驗(yàn)證結(jié)果,如圖9所示鼎俘。外部驗(yàn)證使用來自Tothill等人的數(shù)據(jù)集哲身。使用已發(fā)表的子類型標(biāo)簽作為外部數(shù)據(jù)集來評(píng)估分類器的準(zhǔn)確性。 從GEO(GSE9899)下載RMA歸一化數(shù)據(jù)和log2轉(zhuǎn)換表達(dá)式數(shù)據(jù))贸伐。 然后對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化勘天,使其具有零均值單位方差。 然后將轉(zhuǎn)換后的數(shù)據(jù)作為輸入捉邢,以獲得樣本的子類型標(biāo)簽脯丝。 然后利用樣本的已發(fā)表標(biāo)簽來計(jì)算分類器的精度。外部驗(yàn)證的準(zhǔn)確性如圖10所示伏伐。
1.3可移植性
????confirmation2樣本集驗(yàn)證宠进,all array model在98個(gè)樣本中比較,預(yù)測(cè)一致的有70個(gè)藐翎,TCGA model在85個(gè)樣本中比較材蹬,預(yù)測(cè)一致的有65個(gè)。兩個(gè)模型分別的預(yù)測(cè)性能都不高吝镣。將兩個(gè)模型同時(shí)對(duì)一個(gè)數(shù)據(jù)集驗(yàn)證赚导,統(tǒng)計(jì)得到相同結(jié)果的樣本數(shù)量。按照kappa一致性檢驗(yàn)的結(jié)果0.92赤惊,可以認(rèn)為公布的標(biāo)簽和兩個(gè)模型預(yù)測(cè)的標(biāo)簽的準(zhǔn)確性的一致性基本可以認(rèn)為是幾乎完全一致吼旧。(Kappa檢驗(yàn):0.0~0.20極低的一致性;0.21~0.40一般的一致性未舟;0.41~0.60 中等的一致性圈暗;0.61~0.80 高度的一致性;0.81~1幾乎完全一致).作者還分析了一致樣本和不一致樣本的技術(shù)差異和生物差異裕膀,診斷年齡员串,細(xì)胞數(shù)量,壞死率昼扛,RNA吸光度寸齐,信噪比這些欲诺。
? ?文獻(xiàn)分享時(shí)有人問怎么判斷陽(yáng)性陰性?這種數(shù)據(jù)分析和實(shí)驗(yàn)設(shè)計(jì)這么問問題渺鹦,我真的當(dāng)下捯飭不出來啊扰法。簡(jiǎn)單說一下事后的想法,1.樣本標(biāo)簽來源于聚類分析毅厚,眾所周知聚類分析就是把相似的樣本放到一起塞颁,在類中心的樣本肯定是符合類的特性,在類邊緣的樣本很可能就偏離較遠(yuǎn)吸耿,無法確定樣本分類祠锣,就比如一個(gè)色譜,你告訴我藍(lán)色和紅色中間的顏色是屬于藍(lán)色還是紅色咽安。樣本亞型本就是聚類概念伴网,哪來的準(zhǔn)確的陰性陽(yáng)性。2.作者用的公布的標(biāo)簽我認(rèn)為是在臨床研究中生存率或者其他臨床指標(biāo)能確定小于0.05有顯著性妆棒,用這些結(jié)果的分類標(biāo)簽應(yīng)該還是有意義的澡腾。3.我們數(shù)據(jù)分析在確定聚類的類的個(gè)數(shù)的時(shí)候,是按照組內(nèi)組間差異大小確定的募逞,所以不可能讓組內(nèi)完全沒有差異蛋铆,只能是讓差異最小(完全沒差異放接,直接個(gè)性化治療不完了么刺啦,分什么型)。這件事讓我想到的問題就是纠脾,我們永遠(yuǎn)帶著質(zhì)疑站在對(duì)立面玛瘸,去看東西接受東西,從不曾融入文獻(xiàn)去學(xué)東西苟蹈,學(xué)佛和修佛的區(qū)別糊渊。站在對(duì)立面永遠(yuǎn)不知道里邊怎么回事,我更喜歡站在作者角度想慧脱,作者為什么認(rèn)為可以這么做渺绒。而不是這人這么做肯定不對(duì)嘛。
1.4Nanostring數(shù)據(jù)最小預(yù)測(cè)模型的開發(fā)
? ? 終于把作者自己的樣本們放出來了菱鸥,上邊的分類模型兩個(gè)一起用宗兼,我們能得到Kappa=0.92的結(jié)果,所以我們用上邊兩個(gè)模型分別對(duì)作者自己的Nanostring樣本做分類得到一致性的樣本標(biāo)簽作為標(biāo)準(zhǔn)氮采。重新做分類模型殷绍。找到最小的基因集。一致的樣本共3030個(gè)鹊漠。
????在Trainning set中1487個(gè)樣本中來自于8個(gè)study主到,8個(gè)study做n-fold交叉驗(yàn)證茶行。1.我們使用booststrap方法重新取樣500次,2.在每500個(gè)重采樣中登钥,我們使用所有基因和三種不同的模型(Randomforest,Lasso,Adaboost)3.在每一中算法和500次重采樣中畔师,我們通過隨機(jī)森林和adaboost的基尼特征重要性排序,以及對(duì)lasso的非0系數(shù)的基因進(jìn)行計(jì)數(shù)怔鳖,計(jì)算基因的重要性4.考慮每個(gè)基因在前100個(gè)重要基因中的比例茉唉,得到最終排名固蛾,共三組5.按照前100重要基因结执,從第四個(gè)基因開始,按照步長(zhǎng)為5艾凯,逐步加入基因献幔。中間還有詳細(xì)的熵計(jì)算,這個(gè)建議看原文趾诗,我只是把過程搞出來了蜡感。
1.第一個(gè)表是訓(xùn)練集包含1135個(gè)樣本,準(zhǔn)確率100%
2.第二個(gè)表格確認(rèn)集1,共817個(gè)樣本恃泪,準(zhǔn)確率96%
3.第三個(gè)表格驗(yàn)證集1郑兴,共719個(gè)樣本,準(zhǔn)確率95%
4.第四個(gè)表格驗(yàn)證集2贝乎,共283個(gè)樣本情连,準(zhǔn)確率94%
5.第五個(gè)表格overlap集共76個(gè)樣本,準(zhǔn)確率100%
原諒后邊的潦草览效,有問題我們交流啊~十一假期寫到18:00却舀,也是夠夠的了哈哈哈哈~下班嘍~~~~給祖國(guó)母親慶生去啦~
中秋佳節(jié)快樂~