R plus 生物~Bioconductor

劉小澤寫(xiě)于18.9.7

各行各業(yè)數(shù)據(jù)呈爆炸式增長(zhǎng)稀颁,大量的數(shù)據(jù)等待被處理,R語(yǔ)言就是一個(gè)利器楣黍,可以說(shuō)是做數(shù)據(jù)分析必備的編程語(yǔ)言匾灶。當(dāng)強(qiáng)大的R與包羅萬(wàn)象的生物結(jié)合,再一次刺激了R的迅猛發(fā)展租漂。隨著NGS測(cè)序的普及阶女,R語(yǔ)言的生信專(zhuān)業(yè)社區(qū)Bioconductor誕生,開(kāi)啟了生物信息的R語(yǔ)言時(shí)代哩治。
好工具秃踩,用起來(lái),首先要了解生物數(shù)據(jù)與R之間的關(guān)聯(lián)

生物知識(shí)回顧

  • 基因有三類(lèi):第一類(lèi)編碼序列业筏,編碼蛋白【轉(zhuǎn)錄+翻譯功能】憔杨;第二類(lèi)只有轉(zhuǎn)錄沒(méi)有翻譯功能【tRNA+rRNA】;第三類(lèi)不轉(zhuǎn)錄基因蒜胖,調(diào)控基因表達(dá)【啟動(dòng)子消别、操縱子】
  • 基因組:?jiǎn)伪扼w細(xì)胞中包含編碼序列和非編碼序列的全部DNA【核基因組+線(xiàn)粒體基因組+葉綠體基因組】
  • 狹義轉(zhuǎn)錄組:mRNA,代表樣本整體基因表達(dá)水平台谢,一般稱(chēng)為“表達(dá)譜”【真正的表達(dá)譜是蛋白質(zhì)組信息寻狂,研究手段是質(zhì)譜】。通常用基因芯片对碌、RNA-seq
  • 廣義轉(zhuǎn)錄組:
    • 非編碼ncRNA:有三類(lèi)【按長(zhǎng)度劃分】
      • 小于50nt的small RNA【長(zhǎng)度單位:?jiǎn)捂溄衝t荆虱,雙鏈叫bp】:miRNA、siRNA朽们、piRNA【small RNA序列短怀读,同源性高,一般采用二代測(cè)序檢測(cè)】
      • 50-500nt:rRNA骑脱、tRNA菜枷、snRNA、snoRNA
      • 大于500nt:mRNA-like ncRNA叁丧、不帶polyA尾的ncRNA
    • microRNA:也叫miRNAs啤誊,20-25nt,初級(jí)轉(zhuǎn)錄物-》核酸酶剪切加工-〉組裝進(jìn)RNA誘導(dǎo)的沉默復(fù)合體-》互補(bǔ)配對(duì)識(shí)別靶mRNA-〉根據(jù)互補(bǔ)程度不同指導(dǎo)沉默復(fù)合體降解靶mRNA或者阻遏mRNA翻譯
  • DNA拥娄、蛋白互作:Chromatin immuopre-cipitation, ChIP蚊锹,主要應(yīng)用于:DNA序列轉(zhuǎn)錄因子結(jié)合位點(diǎn)(Binding sites)識(shí)別 ,如啟動(dòng)子稚瘾、增強(qiáng)子等順式作用文件(Cis-acting element)的識(shí)別牡昆;DNA甲基化、組蛋白修飾摊欠、核小體定位
  • DNA甲基化:甲基化DNA免疫共沉淀測(cè)序(Methylated DNA immunoprecipitation sequencing, MeDIP-seq)丢烘、甲基化DNA(蛋白)結(jié)合域測(cè)序(Methylated DNA binding domain sequencing, MBD-seq)和亞硫酸氫鹽測(cè)序(Bisulfite sequencing, BS-seq)

基因表達(dá)分析

基因表達(dá)檢測(cè)方法

  • 實(shí)時(shí)熒光定量PCR(Quantitative real time PCR, qRT-PCR)
  • 基因(表達(dá)譜)芯片(Microarray)
  • 表達(dá)序列標(biāo)簽(Expressed Sequence Tag, EST)
  • 基因表達(dá)系列分析(Serial Analysis of Gene Expression, SAGE)
  • 轉(zhuǎn)錄組測(cè)序

PCR技術(shù)應(yīng)用最為成熟柱宦,靈敏度高,特異性強(qiáng)播瞳,但其缺點(diǎn)是通量較械Э;基因芯片方便快捷赢乓,適合臨床診斷及個(gè)體基因組分析忧侧;基因測(cè)序技術(shù)通量高,但周期長(zhǎng)骏全、成本高

基因芯片是什么

基因芯片又稱(chēng)DNA微陣列苍柏,按照檢測(cè)物的不同,可分為DNA芯片姜贡、RNA芯片等试吁,其中DNA芯片又可分為單核苷酸多肽性(SNP)芯片、比較基因組雜交(CGH)芯片等楼咳。

原理:基于A(yíng)熄捍、T;C母怜、G互補(bǔ)理論余耽,將已知序列的核酸探針與未知序列的核酸序列進(jìn)行雜交檢測(cè)DNA,并且DNA探針以顯微打印的方式大規(guī)模集成于芯片(類(lèi)似于計(jì)算機(jī)的硅芯片)表面苹熏。雜交后通過(guò)計(jì)算機(jī)對(duì)雜交信號(hào)的檢測(cè)分析碟贾,得出樣品的遺傳信息(基因序列及表達(dá)的信息)。分析單核苷酸變異多態(tài)性性?xún)r(jià)比較高轨域。
基因芯片原理

主流寡聚核苷酸芯片主要有:Affymetric袱耽、Agilen、Illumina公司

基因表達(dá)數(shù)據(jù)

矩陣表示:行名代表一個(gè)基因不同條件/樣本的表達(dá)干发,列名代表某個(gè)條件/樣本的所有基因表達(dá)朱巨。數(shù)據(jù)代表表達(dá)水平。那么一般分析什么枉长?

  • 不同樣本/處理中哪些基因表達(dá)有顯著差異冀续?
  • 基因之間有什么共有的功能,或者參與哪些共同代謝途徑必峰?
  • 不同的處理中洪唐,哪些基因變化一致,它們受到上游哪些基因的調(diào)節(jié)吼蚁,或者它們控制下游哪些基因的表達(dá)凭需?
  • 哪些基因表達(dá)存在樣本特異性,也就是說(shuō)通過(guò)他們的表達(dá)可以判斷樣本的狀態(tài)(如:細(xì)胞的增殖、分化功炮、凋亡、應(yīng)激术唬、癌變等)

主要的分析

主要有差異顯著性分析和時(shí)間序列分析薪伏,后者主要是測(cè)定基因多個(gè)時(shí)間點(diǎn)的表達(dá)量,然后聚類(lèi)+主成分分析尋找共調(diào)控基因

表達(dá)顯著性分析就是為了找差異基因(DEG)粗仓。那么怎樣判斷基因間是有差異的呢嫁怀?常用的有3種算法:一是倍數(shù)分析(無(wú)統(tǒng)計(jì)假設(shè)),計(jì)算每個(gè)基因在不同條件/樣本的比值借浊,再與閾值比較塘淑;二是用統(tǒng)計(jì)模型T檢驗(yàn)等方法,計(jì)算差異表達(dá)的置信度p值蚂斤,以0.05或者0.01作為閾值存捺;三是機(jī)器學(xué)習(xí)方法,利用貝葉斯模型曙蒸、隨機(jī)森林等捌治。分析的結(jié)果從來(lái)不用擔(dān)心沒(méi)有差異基因,而是要考慮差異基因可能存在很多纽窟,從幾十個(gè)到上百個(gè)不等肖油,那么如何展示他們呢,一張簡(jiǎn)單粗暴的大表格嗎臂港?肯定是不行的森枪!

需要把上游的這些差異基因再進(jìn)行注釋、分組审孽,一個(gè)類(lèi)別就相當(dāng)于一個(gè)GO term县袱,然后看這幾大類(lèi)的區(qū)別,肯定比看幾十甚至上百個(gè)基因或蛋白的差異要更加直觀(guān)瓷胧,這就是富集分析显拳,包括GO分析张足,KEGG分析皿伺,GSEA分析等粱坤。其中重點(diǎn)研究的基因集叫做前景基因趋观,需要比對(duì)的所有基因集叫背景基因届宠,前景是背景的子集守伸。例如轉(zhuǎn)錄組數(shù)據(jù)中的對(duì)照組和處理組只损,處理與對(duì)照之間的差異基因就是前景基因呆盖,兩組所有的表達(dá)基因就是背景基因反肋。富集分析的目的就是根據(jù)不同功能那伐,把各個(gè)分子進(jìn)行分類(lèi),然后使用超幾何分布檢驗(yàn)進(jìn)行分析。當(dāng)然使用不同工具罕邀,得到的結(jié)果不同畅形,現(xiàn)在clusterProfiler要比DAVID的結(jié)果更多。

GO分析(Gene Ontology)

包括GO terms(標(biāo)簽)+GO annotations(注釋?zhuān)?/p>

  • GO terms存在于由基因本體聯(lián)合會(huì)(Gene Ontology Consortium)建立的數(shù)據(jù)庫(kù)中诉探,對(duì)基因和蛋白功能進(jìn)行限定和描述日熬,每個(gè)注釋信息都有一個(gè)GO ID。它由兩部分構(gòu)成肾胯,第一部分都是GO竖席,第二部分是以0開(kāi)頭的7位數(shù)字,例如GO:0016021 敬肚。

    GO是一個(gè)情報(bào)員毕荐,他負(fù)責(zé)調(diào)查:包括基因的分子功能:“干啥的”(molecular function,MF)艳馒,指分子所執(zhí)行的任務(wù)【如與碳水化合物結(jié)合或ATP水解酶活性等】憎亚、細(xì)胞組分:“活動(dòng)區(qū)域”即產(chǎn)物發(fā)揮作用的位置(cellular component,CC)【如核仁鹰溜、端粒和識(shí)別起始的復(fù)合物】虽填、參與的生物過(guò)程:“近期有什么動(dòng)靜”(biological process,BP)【嘌呤代謝曹动、有絲分裂等】GO調(diào)查完就給被查對(duì)象貼標(biāo)簽term

  • GO annotations即GO注釋?zhuān)轻槍?duì)基因產(chǎn)物的而不是基因斋日,表示某些基因的產(chǎn)物是是非編碼RNA、蛋白質(zhì)還是大分子等墓陈。這里GO就相當(dāng)于一個(gè)中間媒介恶守,它對(duì)基因進(jìn)行定義GO term,然后其他各個(gè)數(shù)據(jù)庫(kù)使用GO的定義方法贡必,對(duì)它們的基因產(chǎn)物進(jìn)行標(biāo)注兔港,例如一個(gè)數(shù)據(jù)庫(kù)的EntrezID或SYMBOL與GO數(shù)據(jù)庫(kù)進(jìn)行ID對(duì)應(yīng),或者用一個(gè)數(shù)據(jù)庫(kù)的序列與GO term進(jìn)行對(duì)應(yīng)仔拟。

在一個(gè)GO注釋中衫樊,例如,一個(gè)基因的產(chǎn)物是細(xì)胞色素c(cytochrome c)利花,那么這個(gè)基因的產(chǎn)物就會(huì)被一個(gè)分子功能術(shù)語(yǔ)(Molecular Function)描述為氧化還原酶活性(oxidoreductase activity )科侈,被生物過(guò)程(Biological Process)描述為氧化磷酸化(oxidative phosphorylation ),被細(xì)胞成分(Cellular Component )描述為線(xiàn)性體基質(zhì)(mitochondrial matrix )和線(xiàn)粒體內(nèi)膜(mitochondrial inner membrane )~引用自“讀研筆記”

pathway代謝通路

GO負(fù)責(zé)分門(mén)別類(lèi)炒事,而pathway負(fù)責(zé)把每一類(lèi)對(duì)應(yīng)到具體的代謝網(wǎng)絡(luò)中臀栈。研究pathway的原因是:生物學(xué)問(wèn)題中設(shè)定一個(gè)“蝴蝶效應(yīng)”假設(shè):1個(gè)Pathway上游基因的改變,會(huì)導(dǎo)致下游相關(guān)基因改變挠乳,從而改變通路中大量基因的表達(dá)∪ㄊ恚現(xiàn)在常用是KEGG姑躲,但是它收錄的都是是已有的研究結(jié)果,而這些信息盟蚣,還沒(méi)有完善

熟悉一下Bioconductor

Bioconductor擁有上千個(gè)擴(kuò)展包黍析,主要有實(shí)驗(yàn)數(shù)據(jù)包、軟件包屎开、注釋數(shù)據(jù)包三大類(lèi)橄仍,例如白血病的ALL包就是利用Affymetrix進(jìn)行芯片分析的數(shù)據(jù)包;但最重要的當(dāng)屬軟件包

軟件包:

  1. 注釋?zhuān)篏O牍戚、Pathway等

  2. 微陣列板塊(Assay Domains):處理芯片數(shù)據(jù),Bioconductor支持主流的Affymetrix的商業(yè)化單色寡聚核苷酸芯片虑粥,也支持用戶(hù)定制的雙色cDNA芯片如孝。芯片數(shù)據(jù)一般流程:數(shù)據(jù)預(yù)處理、差異表達(dá)基因篩選娩贷、聚類(lèi)分析第晰。這里的包有以下幾部分:

    • 比較基因組雜交(Comparative Genomic Hybridization, CGH)
    • 細(xì)胞水平檢測(cè)(Cell Based Assays)
    • 染色質(zhì)免疫共沉淀芯片(ChIPchip)
    • 拷貝數(shù)變異(Copy Number Variants)
    • CpG島(CpGIsland)
    • 差異表達(dá)(Differential Expression)
    • DNA甲基化(DNA Methylation)
    • 外顯子檢測(cè)(Exon Assay)
    • 基因表達(dá)(Gene Expression)
    • 遺傳變異性(Genetic Variability)
    • 單核苷酸多態(tài)性(SNP)
    • 轉(zhuǎn)錄
  3. 測(cè)序技術(shù)(Assay techs)

    • 芯片技術(shù)(Microassay)
    • 微孔板檢測(cè)(Microtitre Plate Assay?)
    • 質(zhì)譜(Mass Spectrometry)
    • 基因表達(dá)系列分析(SAGE)
    • 流式細(xì)胞儀(Flow Cytometry)
    • NGS
  4. 數(shù)據(jù)處理:基因芯片數(shù)據(jù)預(yù)處理(背景矯正、歸一化彬祖、質(zhì)控)茁瘦、芯片分析、基因間關(guān)系储笑、樣本間關(guān)系甜熔、識(shí)別差異基因

    聚類(lèi)分析(Clustering)、分類(lèi)(Classification)突倍、富集分析(Enrichment)腔稀、多組比較(Multiple Comparison)、預(yù)處理(Preprocessing)羽历、質(zhì)控焊虏、序列匹配、時(shí)間序列分析(Time Course)秕磷、可視化诵闭、網(wǎng)絡(luò)分析


歡迎關(guān)注我們的公眾號(hào)~_~  
我們是兩個(gè)農(nóng)轉(zhuǎn)生信的小碩,打造生信星球澎嚣,想讓它成為一個(gè)不拽術(shù)語(yǔ)疏尿、通俗易懂的生信知識(shí)平臺(tái)。需要幫助或提出意見(jiàn)請(qǐng)后臺(tái)留言或發(fā)送郵件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末币叹,一起剝皮案震驚了整個(gè)濱河市润歉,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌颈抚,老刑警劉巖踩衩,帶你破解...
    沈念sama閱讀 222,627評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件嚼鹉,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡驱富,警方通過(guò)查閱死者的電腦和手機(jī)锚赤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,180評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)褐鸥,“玉大人线脚,你說(shuō)我怎么就攤上這事〗虚牛” “怎么了浑侥?”我有些...
    開(kāi)封第一講書(shū)人閱讀 169,346評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀(guān)的道長(zhǎng)晰绎。 經(jīng)常有香客問(wèn)我寓落,道長(zhǎng),這世上最難降的妖魔是什么荞下? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 60,097評(píng)論 1 300
  • 正文 為了忘掉前任伶选,我火速辦了婚禮,結(jié)果婚禮上尖昏,老公的妹妹穿的比我還像新娘仰税。我一直安慰自己,他們只是感情好抽诉,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,100評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布陨簇。 她就那樣靜靜地躺著,像睡著了一般迹淌。 火紅的嫁衣襯著肌膚如雪塞帐。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,696評(píng)論 1 312
  • 那天巍沙,我揣著相機(jī)與錄音葵姥,去河邊找鬼。 笑死句携,一個(gè)胖子當(dāng)著我的面吹牛榔幸,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播矮嫉,決...
    沈念sama閱讀 41,165評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼削咆,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了蠢笋?” 一聲冷哼從身側(cè)響起拨齐,我...
    開(kāi)封第一講書(shū)人閱讀 40,108評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎昨寞,沒(méi)想到半個(gè)月后瞻惋,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體厦滤,經(jīng)...
    沈念sama閱讀 46,646評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,709評(píng)論 3 342
  • 正文 我和宋清朗相戀三年歼狼,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了掏导。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,861評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡羽峰,死狀恐怖趟咆,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情梅屉,我是刑警寧澤值纱,帶...
    沈念sama閱讀 36,527評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站坯汤,受9級(jí)特大地震影響计雌,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜玫霎,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,196評(píng)論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望妈橄。 院中可真熱鬧庶近,春花似錦、人聲如沸眷蚓。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,698評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)沙热。三九已至叉钥,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間篙贸,已是汗流浹背投队。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,804評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留爵川,地道東北人敷鸦。 一個(gè)月前我還...
    沈念sama閱讀 49,287評(píng)論 3 379
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像寝贡,于是被迫代替她去往敵國(guó)和親扒披。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,860評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容