劉小澤寫(xiě)于18.9.7
各行各業(yè)數(shù)據(jù)呈爆炸式增長(zhǎng)稀颁,大量的數(shù)據(jù)等待被處理,R語(yǔ)言就是一個(gè)利器楣黍,可以說(shuō)是做數(shù)據(jù)分析必備的編程語(yǔ)言匾灶。當(dāng)強(qiáng)大的R與包羅萬(wàn)象的生物結(jié)合,再一次刺激了R的迅猛發(fā)展租漂。隨著NGS測(cè)序的普及阶女,R語(yǔ)言的生信專(zhuān)業(yè)社區(qū)Bioconductor誕生,開(kāi)啟了生物信息的R語(yǔ)言時(shí)代哩治。
好工具秃踩,用起來(lái),首先要了解生物數(shù)據(jù)與R之間的關(guān)聯(lián)
生物知識(shí)回顧
- 基因有三類(lèi):第一類(lèi)編碼序列业筏,編碼蛋白【轉(zhuǎn)錄+翻譯功能】憔杨;第二類(lèi)只有轉(zhuǎn)錄沒(méi)有翻譯功能【tRNA+rRNA】;第三類(lèi)不轉(zhuǎn)錄基因蒜胖,調(diào)控基因表達(dá)【啟動(dòng)子消别、操縱子】
- 基因組:?jiǎn)伪扼w細(xì)胞中包含編碼序列和非編碼序列的全部DNA【核基因組+線(xiàn)粒體基因組+葉綠體基因組】
- 狹義轉(zhuǎn)錄組:mRNA,代表樣本整體基因表達(dá)水平台谢,一般稱(chēng)為“表達(dá)譜”【真正的表達(dá)譜是蛋白質(zhì)組信息寻狂,研究手段是質(zhì)譜】。通常用基因芯片对碌、RNA-seq
- 廣義轉(zhuǎn)錄組:
- 非編碼ncRNA:有三類(lèi)【按長(zhǎng)度劃分】
- 小于50nt的small RNA【長(zhǎng)度單位:?jiǎn)捂溄衝t荆虱,雙鏈叫bp】:miRNA、siRNA朽们、piRNA【small RNA序列短怀读,同源性高,一般采用二代測(cè)序檢測(cè)】
- 50-500nt:rRNA骑脱、tRNA菜枷、snRNA、snoRNA
- 大于500nt:mRNA-like ncRNA叁丧、不帶polyA尾的ncRNA
- microRNA:也叫miRNAs啤誊,20-25nt,初級(jí)轉(zhuǎn)錄物-》核酸酶剪切加工-〉組裝進(jìn)RNA誘導(dǎo)的沉默復(fù)合體-》互補(bǔ)配對(duì)識(shí)別靶mRNA-〉根據(jù)互補(bǔ)程度不同指導(dǎo)沉默復(fù)合體降解靶mRNA或者阻遏mRNA翻譯
- 非編碼ncRNA:有三類(lèi)【按長(zhǎng)度劃分】
- DNA拥娄、蛋白互作:Chromatin immuopre-cipitation, ChIP蚊锹,主要應(yīng)用于:DNA序列轉(zhuǎn)錄因子結(jié)合位點(diǎn)(Binding sites)識(shí)別 ,如啟動(dòng)子稚瘾、增強(qiáng)子等順式作用文件(Cis-acting element)的識(shí)別牡昆;DNA甲基化、組蛋白修飾摊欠、核小體定位
- DNA甲基化:甲基化DNA免疫共沉淀測(cè)序(Methylated DNA immunoprecipitation sequencing, MeDIP-seq)丢烘、甲基化DNA(蛋白)結(jié)合域測(cè)序(Methylated DNA binding domain sequencing, MBD-seq)和亞硫酸氫鹽測(cè)序(Bisulfite sequencing, BS-seq)
基因表達(dá)分析
基因表達(dá)檢測(cè)方法
- 實(shí)時(shí)熒光定量PCR(Quantitative real time PCR, qRT-PCR)
- 基因(表達(dá)譜)芯片(Microarray)
- 表達(dá)序列標(biāo)簽(Expressed Sequence Tag, EST)
- 基因表達(dá)系列分析(Serial Analysis of Gene Expression, SAGE)
- 轉(zhuǎn)錄組測(cè)序
PCR技術(shù)應(yīng)用最為成熟柱宦,靈敏度高,特異性強(qiáng)播瞳,但其缺點(diǎn)是通量較械Э;基因芯片方便快捷赢乓,適合臨床診斷及個(gè)體基因組分析忧侧;基因測(cè)序技術(shù)通量高,但周期長(zhǎng)骏全、成本高
基因芯片是什么
基因芯片又稱(chēng)DNA微陣列苍柏,按照檢測(cè)物的不同,可分為DNA芯片姜贡、RNA芯片等试吁,其中DNA芯片又可分為單核苷酸多肽性(SNP)芯片、比較基因組雜交(CGH)芯片等楼咳。
原理:基于A(yíng)熄捍、T;C母怜、G互補(bǔ)理論余耽,將已知序列的核酸探針與未知序列的核酸序列進(jìn)行雜交檢測(cè)DNA,并且DNA探針以顯微打印的方式大規(guī)模集成于芯片(類(lèi)似于計(jì)算機(jī)的硅芯片)表面苹熏。雜交后通過(guò)計(jì)算機(jī)對(duì)雜交信號(hào)的檢測(cè)分析碟贾,得出樣品的遺傳信息(基因序列及表達(dá)的信息)。分析單核苷酸變異多態(tài)性性?xún)r(jià)比較高轨域。主流寡聚核苷酸芯片主要有:Affymetric袱耽、Agilen、Illumina公司
基因表達(dá)數(shù)據(jù)
矩陣表示:行名代表一個(gè)基因不同條件/樣本的表達(dá)干发,列名代表某個(gè)條件/樣本的所有基因表達(dá)朱巨。數(shù)據(jù)代表表達(dá)水平。那么一般分析什么枉长?
- 不同樣本/處理中哪些基因表達(dá)有顯著差異冀续?
- 基因之間有什么共有的功能,或者參與哪些共同代謝途徑必峰?
- 不同的處理中洪唐,哪些基因變化一致,它們受到上游哪些基因的調(diào)節(jié)吼蚁,或者它們控制下游哪些基因的表達(dá)凭需?
- 哪些基因表達(dá)存在樣本特異性,也就是說(shuō)通過(guò)他們的表達(dá)可以判斷樣本的狀態(tài)(如:細(xì)胞的增殖、分化功炮、凋亡、應(yīng)激术唬、癌變等)
主要的分析
主要有差異顯著性分析和時(shí)間序列分析薪伏,后者主要是測(cè)定基因多個(gè)時(shí)間點(diǎn)的表達(dá)量,然后聚類(lèi)+主成分分析尋找共調(diào)控基因
表達(dá)顯著性分析就是為了找差異基因(DEG)粗仓。那么怎樣判斷基因間是有差異的呢嫁怀?常用的有3種算法:一是倍數(shù)分析(無(wú)統(tǒng)計(jì)假設(shè)),計(jì)算每個(gè)基因在不同條件/樣本的比值借浊,再與閾值比較塘淑;二是用統(tǒng)計(jì)模型T檢驗(yàn)等方法,計(jì)算差異表達(dá)的置信度p值蚂斤,以0.05或者0.01作為閾值存捺;三是機(jī)器學(xué)習(xí)方法,利用貝葉斯模型曙蒸、隨機(jī)森林等捌治。分析的結(jié)果從來(lái)不用擔(dān)心沒(méi)有差異基因,而是要考慮差異基因可能存在很多纽窟,從幾十個(gè)到上百個(gè)不等肖油,那么如何展示他們呢,一張簡(jiǎn)單粗暴的大表格嗎臂港?肯定是不行的森枪!
需要把上游的這些差異基因再進(jìn)行注釋、分組审孽,一個(gè)類(lèi)別就相當(dāng)于一個(gè)GO term县袱,然后看這幾大類(lèi)的區(qū)別,肯定比看幾十甚至上百個(gè)基因或蛋白的差異要更加直觀(guān)瓷胧,這就是富集分析显拳,包括GO分析张足,KEGG分析皿伺,GSEA分析等粱坤。其中重點(diǎn)研究的基因集叫做前景基因趋观,需要比對(duì)的所有基因集叫背景基因届宠,前景是背景的子集守伸。例如轉(zhuǎn)錄組數(shù)據(jù)中的對(duì)照組和處理組只损,處理與對(duì)照之間的差異基因就是前景基因呆盖,兩組所有的表達(dá)基因就是背景基因反肋。富集分析的目的就是根據(jù)不同功能那伐,把各個(gè)分子進(jìn)行分類(lèi),然后使用超幾何分布檢驗(yàn)進(jìn)行分析。當(dāng)然使用不同工具罕邀,得到的結(jié)果不同畅形,現(xiàn)在clusterProfiler要比DAVID的結(jié)果更多。
GO分析(Gene Ontology)
包括GO terms(標(biāo)簽)+GO annotations(注釋?zhuān)?/p>
-
GO terms存在于由基因本體聯(lián)合會(huì)(Gene Ontology Consortium)建立的數(shù)據(jù)庫(kù)中诉探,對(duì)基因和蛋白功能進(jìn)行限定和描述日熬,每個(gè)注釋信息都有一個(gè)GO ID。它由兩部分構(gòu)成肾胯,第一部分都是
GO
竖席,第二部分是以0開(kāi)頭的7位數(shù)字,例如GO:0016021
敬肚。GO是一個(gè)情報(bào)員毕荐,他負(fù)責(zé)調(diào)查:包括基因的分子功能:“干啥的”(molecular function,MF)艳馒,指分子所執(zhí)行的任務(wù)【如與碳水化合物結(jié)合或ATP水解酶活性等】憎亚、細(xì)胞組分:“活動(dòng)區(qū)域”即產(chǎn)物發(fā)揮作用的位置(cellular component,CC)【如核仁鹰溜、端粒和識(shí)別起始的復(fù)合物】虽填、參與的生物過(guò)程:“近期有什么動(dòng)靜”(biological process,BP)【嘌呤代謝曹动、有絲分裂等】GO調(diào)查完就給被查對(duì)象貼標(biāo)簽term
GO annotations即GO注釋?zhuān)轻槍?duì)基因產(chǎn)物的而不是基因斋日,表示某些基因的產(chǎn)物是是非編碼RNA、蛋白質(zhì)還是大分子等墓陈。這里GO就相當(dāng)于一個(gè)中間媒介恶守,它對(duì)基因進(jìn)行定義GO term,然后其他各個(gè)數(shù)據(jù)庫(kù)使用GO的定義方法贡必,對(duì)它們的基因產(chǎn)物進(jìn)行標(biāo)注兔港,例如一個(gè)數(shù)據(jù)庫(kù)的EntrezID或SYMBOL與GO數(shù)據(jù)庫(kù)進(jìn)行ID對(duì)應(yīng),或者用一個(gè)數(shù)據(jù)庫(kù)的序列與GO term進(jìn)行對(duì)應(yīng)仔拟。
在一個(gè)GO注釋中衫樊,例如,一個(gè)基因的產(chǎn)物是細(xì)胞色素c(cytochrome c)利花,那么這個(gè)基因的產(chǎn)物就會(huì)被一個(gè)分子功能術(shù)語(yǔ)(Molecular Function)描述為氧化還原酶活性(oxidoreductase activity )科侈,被生物過(guò)程(Biological Process)描述為氧化磷酸化(oxidative phosphorylation ),被細(xì)胞成分(Cellular Component )描述為線(xiàn)性體基質(zhì)(mitochondrial matrix )和線(xiàn)粒體內(nèi)膜(mitochondrial inner membrane )~引用自“讀研筆記”
pathway代謝通路
GO負(fù)責(zé)分門(mén)別類(lèi)炒事,而pathway負(fù)責(zé)把每一類(lèi)對(duì)應(yīng)到具體的代謝網(wǎng)絡(luò)中臀栈。研究pathway的原因是:生物學(xué)問(wèn)題中設(shè)定一個(gè)“蝴蝶效應(yīng)”假設(shè):1個(gè)Pathway上游基因的改變,會(huì)導(dǎo)致下游相關(guān)基因改變挠乳,從而改變通路中大量基因的表達(dá)∪ㄊ恚現(xiàn)在常用是KEGG姑躲,但是它收錄的都是是已有的研究結(jié)果,而這些信息盟蚣,還沒(méi)有完善
熟悉一下Bioconductor
Bioconductor擁有上千個(gè)擴(kuò)展包黍析,主要有實(shí)驗(yàn)數(shù)據(jù)包、軟件包屎开、注釋數(shù)據(jù)包三大類(lèi)橄仍,例如白血病的ALL包就是利用Affymetrix進(jìn)行芯片分析的數(shù)據(jù)包;但最重要的當(dāng)屬軟件包
軟件包:
注釋?zhuān)篏O牍戚、Pathway等
-
微陣列板塊(Assay Domains):處理芯片數(shù)據(jù),Bioconductor支持主流的Affymetrix的商業(yè)化單色寡聚核苷酸芯片虑粥,也支持用戶(hù)定制的雙色cDNA芯片如孝。芯片數(shù)據(jù)一般流程:數(shù)據(jù)預(yù)處理、差異表達(dá)基因篩選娩贷、聚類(lèi)分析第晰。這里的包有以下幾部分:
- 比較基因組雜交(Comparative Genomic Hybridization, CGH)
- 細(xì)胞水平檢測(cè)(Cell Based Assays)
- 染色質(zhì)免疫共沉淀芯片(ChIPchip)
- 拷貝數(shù)變異(Copy Number Variants)
- CpG島(CpGIsland)
- 差異表達(dá)(Differential Expression)
- DNA甲基化(DNA Methylation)
- 外顯子檢測(cè)(Exon Assay)
- 基因表達(dá)(Gene Expression)
- 遺傳變異性(Genetic Variability)
- 單核苷酸多態(tài)性(SNP)
- 轉(zhuǎn)錄
-
測(cè)序技術(shù)(Assay techs)
- 芯片技術(shù)(Microassay)
- 微孔板檢測(cè)(Microtitre Plate Assay?)
- 質(zhì)譜(Mass Spectrometry)
- 基因表達(dá)系列分析(SAGE)
- 流式細(xì)胞儀(Flow Cytometry)
- NGS
-
數(shù)據(jù)處理:基因芯片數(shù)據(jù)預(yù)處理(背景矯正、歸一化彬祖、質(zhì)控)茁瘦、芯片分析、基因間關(guān)系储笑、樣本間關(guān)系甜熔、識(shí)別差異基因
聚類(lèi)分析(Clustering)、分類(lèi)(Classification)突倍、富集分析(Enrichment)腔稀、多組比較(Multiple Comparison)、預(yù)處理(Preprocessing)羽历、質(zhì)控焊虏、序列匹配、時(shí)間序列分析(Time Course)秕磷、可視化诵闭、網(wǎng)絡(luò)分析
歡迎關(guān)注我們的公眾號(hào)~_~
我們是兩個(gè)農(nóng)轉(zhuǎn)生信的小碩,打造生信星球澎嚣,想讓它成為一個(gè)不拽術(shù)語(yǔ)疏尿、通俗易懂的生信知識(shí)平臺(tái)。需要幫助或提出意見(jiàn)請(qǐng)后臺(tái)留言或發(fā)送郵件到Bioplanet520@outlook.com