工作中遇到的文獻亿柑,反正都要看邢疙,順便做個筆記,文章影響因子不高望薄,重點是思路和方法疟游,文章方法上用了支持向量機(SVM),線性判別分析(LDA)式矫,KNN臨近法乡摹,貝葉斯法(Bayes)。(深感簡書排版難用采转,大概是我不會用吧~)
摘要:
胃腸胰神經(jīng)內(nèi)分泌瘤的發(fā)病率和患病率在增加聪廉。此類病的延遲確診很常見,CgA單一指標診斷是不準確的故慈。文章中通過三個微陣列數(shù)據(jù)集的計算分析來鑒定NEN板熊,樣本包括NEN組織15例,NEN外周血7例察绷,腺癌363例干签。在130份血液樣本(NENS63例),中檢測候選基因拆撼,在兩個獨立組中驗證容劳,第一組n=115喘沿,NENs=72,第二組n=120竭贩,NENs=58蚜印。對176份樣本進行了CgA比較×袅浚基因分類其在獨立的集合中檢測到NENs窄赋,具有高度敏感性(85-98%),特異性(93-97%)楼熄,PPV(95-96%)和NPV(87-98%)忆绰。比較來說分類器的AUC為0.95-0.98,CgA為0.64可岂,分類器比CgA更準確错敢。在亞組分析中,胰腺和腸胃中具有相似的效果(79-88%敏感性青柄,94%的特異性)伐债。
材料:
人類癌癥和正常微陣列數(shù)據(jù)集:數(shù)據(jù)庫地址為http://www.ebi.ac.uk/arrayexpress
延伸:數(shù)據(jù)庫文獻:Parkinson H, Kapushesky M, Kolesnikov N, Rustici G, Shojatalab M, et al.(2009) ArrayExpress update–from an archive of functional genomics experiments to the atlas of gene expression. Nucleic Acids Res 37: D868–872.doi:10.1093/nar/gkn889
GEP-NEN數(shù)據(jù)1:包括小腸組織3例,原發(fā)性GEP-NEN6例和轉(zhuǎn)移性GEP-NENs3例致开。
GEP-NEN數(shù)據(jù)2:包括正撤逅回腸粘膜6例,原發(fā)性中腸3例双戳,肝轉(zhuǎn)移3例虹蒋。
公共癌癥微陣列數(shù)據(jù)集:三個肝癌細胞癌數(shù)據(jù)集:酒精性HCC(n=65),病毒性HCC(n=124)飒货,進展性HCC(n=75)魄衅;乳腺癌(n=86),結(jié)腸癌(n=47)塘辅,前列腺癌(n=154)晃虫,正常人體組織(n=158)。
此外還檢測了外周血基因表達扣墩,為此檢查了14個樣本(對照7個哲银,GEP-NENs7個)。
分析方法:
訓練組:130份血液樣本呻惕,對照組67例荆责,GEP-NENs63例
獨立驗證集:第一組:115例樣本。對照組43例亚脆,GEP-NENs72例做院;第二組:120例樣本,對照組49例,GEP-NENs71例键耕。
(實驗中的方法不是我關(guān)注的點寺滚,我就一個數(shù)據(jù)分析的娃,真的不懂也不care那些屈雄,擔心翻譯錯了玛迄,覺得有用或者感興趣的娃,可以自己看)
分類算法:基因表達值log轉(zhuǎn)換到1-100之間棚亩。采用10折交叉驗證設(shè)計,在訓練數(shù)據(jù)集上進行建模虏杰。在內(nèi)部訓練集中讥蟆,差異表達基因用t檢驗。利用上調(diào)特征(ps:此部分不知道為什么選擇上調(diào)的基因)對四種不同的學習算法包括支持向量機(SVM)纺阔,線性判別分析(LDA)瘸彤,K臨近分析和樸素貝葉斯(Bayes)進行內(nèi)部訓練。為了控制過擬合笛钝,在2個驗證集中進行驗證质况。對照樣本和GEP-NEN的一致性標簽是通過多數(shù)票方法產(chǎn)生。
詳細介紹:
1.候選基因的選擇
1.1基因共表達網(wǎng)絡(luò):?比較GEP-NEN和其他癌癥數(shù)據(jù)集之間的共表達網(wǎng)絡(luò)分析玻靡,此外還用GEP-NEN和正常人體數(shù)據(jù)集(79種不同的的健康組織和細胞類型结榄,共計158個陣列)比較,以消除由于健康組織可能發(fā)生的共表達囤捻。GEP-NEN基因共表達網(wǎng)絡(luò):1)保留GEP-NEN數(shù)據(jù)集中重復的共表達對臼朗,2)從GEP-NEN網(wǎng)絡(luò)中消除其他癌癥和正常組織的基因共表達,3)消除GEP-NEN-A蝎土,GEP-NEN-B網(wǎng)絡(luò)不同變化的基因视哑。
? ? 該分析產(chǎn)生了2892個基因和30444個共表達,我們關(guān)注的是這個網(wǎng)絡(luò)中最大的連接組件(2545個基因的30249個連接)誊涯,其中包含了99%的共表達信息挡毅。重要的是基因共表達網(wǎng)絡(luò)不試圖識別“直接基因相互作用”,二是包含“基因鄰域關(guān)系”暴构,這在傳統(tǒng)的微陣列分析中常被忽略跪呈,并用來識別在共同途徑或生物過程中發(fā)揮不同作用的基因。因此丹壕,共表達網(wǎng)絡(luò)的功能表征應該被視為一種描述性分析庆械,旨在產(chǎn)生附加的假設(shè)檢驗。
1.2GEP-NEN基因共表達網(wǎng)絡(luò)功能分析:為了深入了解GEP-NEN網(wǎng)絡(luò)部獲得分子通路菌赖,使用DAVID富集相關(guān)通路缭乘。Integration of energy metabolism富集到58個基因,p=4.2*10^(-5);Diabetes pathway富集到68個基因,p=2.7*10^(-4);Pathways in cancer富集到72個基因堕绩,p=0.003策幼,其他途徑包括免疫反應,神經(jīng)系統(tǒng)發(fā)育和代謝奴紧。之后使用Louvain算法特姐,通過模塊化最大化將階段迭代分組區(qū)域中,將GEP-NEN網(wǎng)絡(luò)劃分為62個簇黍氮,分別在最大和最小的簇中有800個和3個基因唐含。
補充:Louvain算法
1.3Marker基因的選擇:我們產(chǎn)生了三個推測的標記基因面板,通過RT-PCR進一步檢測:1)組織沫浆,2)外周血捷枯,3)文獻,此處要看補充方法了专执。后邊有時間加上淮捆。為了生成給予組織的基因面板,我們在GEP-NEN-A和GEP-NEN-B數(shù)據(jù)集中發(fā)現(xiàn)了顯著上調(diào)的基因本股,摒棄保留了GEP-NEN基因表達網(wǎng)絡(luò)中也存在的基因攀痊。隨后,我們保留了具有高網(wǎng)絡(luò)聚類系數(shù)的基因拄显,基于他們與腫瘤發(fā)生關(guān)聯(lián)的可能性增加苟径。最后,查找了一組369個基因凿叠,這些基因通過閾值過濾涩笤,和文獻手動搜索,搜索標準:A)神經(jīng)內(nèi)分泌瘤盒件,B)腫瘤形成蹬碧,C)轉(zhuǎn)移。369個基因中21個被選擇用于PCR炒刁。14個外周血樣本(n=7個對照組恩沽,n=7個GEP-NEN組成),1382個上調(diào)基因翔始,僅保留GEP_NEN-A罗心,GEP_NEN-B陽性的,產(chǎn)生306個假定的標記基因城瞎。手動文獻搜索渤闷,查找與內(nèi)分泌生物學或者是內(nèi)分泌腫瘤相關(guān)的基因,確定了32/306個PCR驗證的靶點脖镀。
? ? 文獻中查到的基因共22個飒箭,13個標記基因在之前報道中與GEP-NEN相關(guān),另外9個和腫瘤的發(fā)生和轉(zhuǎn)移相關(guān)。在這些分析的基礎(chǔ)上弦蹂,選擇了75個假定基因肩碟,做PCR分析。
2.在測試集和獨立集中驗證GEP-NEN標記的基因
????為了驗證“假定”標記面板凸椿,測量了從訓練子集(對照49個削祈,GEP_NEN28個)中分離出的mRNA的轉(zhuǎn)錄水平。這表明75個候選標記中有51個在血液中能產(chǎn)生可檢產(chǎn)物脑漫。使用51個標記基因識別GEP-NEN髓抑,將GEP-NEN分類器建立在訓練集(對照67個,GEP63個)优幸,用t檢驗計算對照組和腫瘤病理的顯著性启昧,采用四種分類算法(SVM,LDA劈伴,KNN,Bayes)和10倍交叉驗證設(shè)計握爷,建立了GEP-NEN診斷分類器跛璧。支持向量機的精度為0.89(0.85-1.0),LDA算法0.89(0.86-0.93)新啼,KNN精度0.88(0.85-0.93)追城,Bayes精度0.86(0.85-0.93)。3中分類器的投票組合準確率為0.88燥撞。為了控制過度擬合和評估分類器的性能座柱,我們檢查了兩個驗證集,驗證集敏感性為85%-98%物舒,特異性為93%-97%色洞,PPV為95-96%,NPVs87-98%冠胯,第一和第二個驗證集測試AUC分別是0.98,0.95火诸。
? ??51個標記基因和Chromogranin A對GEP_NEN的識別比較。為了檢查外周血PCR特征的效用荠察,我們將其與一組176個樣本的組中CgA的測量結(jié)果進行比較置蜀,與對照組相比,GEP-NEN中CgA升高P=0.002悉盆。采用19Units/L作為臨界值盯荤,敏感性為32%,特異性99%焕盟,PPV96%秋秤,NPV63%。正確率為68%。PCR的方法比CgA的方法更準確航缀。特異性相似(94%vs99%)商架,敏感性高于CgA(85%vs32%)。
3.GEP_NEN標記基因的額外作用
? ? 為了進一步評估標記基因的潛在作用芥玉,檢查前神經(jīng)基因和胃腸道神經(jīng)基因的敏感性和特異性是否存在差異蛇摸。以及是否可以檢測到非轉(zhuǎn)移性腫瘤。此外我們還想測試在低CgA表達患者中表達如何灿巧。我們分別見擦了每個驗證集以及兩個集的組合赶袄。識別P-NENs性能指標:敏感性為64-100%,特異性為92%=95%抠藕。43個胰腺癌種特異性為94%饿肺,95例胃腸道腫瘤中特異性為94%。兩者沒有顯著性差異盾似,表明PCR檢測在兩種癌種中結(jié)果相似敬辣。
? ? 對轉(zhuǎn)移瘤的評估發(fā)現(xiàn),中的敏感性和特異性85%零院,11例無轉(zhuǎn)移瘤患者中91%為陽性溉跃,特異性94%,不論是否轉(zhuǎn)移告抄,PCR都能很好的鑒別出患者撰茎。
? ? 176個CgA樣本數(shù)據(jù)集使用19U/L為臨界值,確定了55名低CgA患者打洼,50例患者的PCR評分為0.2分(91%)龄糊。在26例CgA升高的患者中22例(85%)PCR評分升高。PCR評分顯著高于CgA募疮。
搞完了炫惩,都沒看懂他的樣本到底怎么用的