這是我聽(tīng)孟浩巍知乎Live:生信進(jìn)階第1課-重復(fù)Nature文章和B站視頻:高通量測(cè)序技術(shù)交流錄像里的筆記哦~
目錄:
- 文章的主要結(jié)論解讀
- 傳統(tǒng)RNA-Seq建庫(kù)方法
- 幾種主要的單細(xì)胞RNA-Seq建庫(kù)方法
- 單細(xì)胞測(cè)序技術(shù)簡(jiǎn)介
- 單細(xì)胞RNA-Seq的分析流程
- 簡(jiǎn)單介紹主成分分析(PCA)
文章的主要結(jié)論解讀
Reconstructing lineage hierarchies of the distal lung epithelium using single-cell RNA-Seq
文章:用單細(xì)胞RNA-Seq的測(cè)序技術(shù)研究了肺部表皮發(fā)育相關(guān)的內(nèi)容
肺癌的分類
- 小細(xì)胞肺癌
- 非小細(xì)胞肺癌
其中非小細(xì)胞肺癌絕大部分是由環(huán)境因素和一些突變mutation造成的侮邀;小細(xì)胞肺癌大部分是由于自身的遺傳因素造成的,包括吸煙導(dǎo)致的肺癌都是非小細(xì)胞肺癌休玩。目前重點(diǎn)研究領(lǐng)域在非小細(xì)胞肺癌躏结。
文章的figure1一定會(huì)放它最主要最亮點(diǎn)的東西。
figure1a
拍了一張組織圖又畫了一張模式圖夸研,就是告訴我們邦蜜,肺泡在發(fā)育和分化過(guò)程中一共涉及到5種細(xì)胞:AT1、AT2亥至、BP悼沈、Clara、Ciliated姐扮。
figure1b
給了我們非常簡(jiǎn)單明了的解釋絮供,通過(guò)PCA的辦法用第一維主成分(PC1)和第三維主成分(PC3)可以把這五種單細(xì)胞完全分開(kāi),這就說(shuō)明了從基因表達(dá)譜的水平上這五種細(xì)胞確實(shí)是有不同的茶敏,這就是這篇文章的核心了:用單細(xì)胞的RNA水平也就是轉(zhuǎn)錄本的表達(dá)水平來(lái)分離不同分化階段的細(xì)胞壤靶。
這篇文章的研究重點(diǎn)是:
- AT1、AT2來(lái)源于BP細(xì)胞嗎惊搏?
- 這五種細(xì)胞在基因?qū)用婺芊穹值拈_(kāi)贮乳,它的分化水平和分化過(guò)程到底是什么?
- 在分化的過(guò)程中有沒(méi)有特定的gene marker恬惯?
figure2
用headmap鑒定/聚類出每一種細(xì)胞有沒(méi)有特定的gene marker
向拆,來(lái)仔細(xì)看下這張圖:
首先整體上看下這張圖的顏色,顏色是FPKM(基因表達(dá)量)取過(guò)log2之后的在0-15之間的數(shù)宿崭。每一行代表一個(gè)細(xì)胞的數(shù)據(jù)亲铡,每一列是一個(gè)基因的數(shù)據(jù),這張圖大概由80多行葡兑,也就是它是一個(gè)80多個(gè)細(xì)胞的數(shù)據(jù)奖蔓,有100多列,也就是說(shuō)它從眾多眾多基因里面選出了100多個(gè)有代表性的基因來(lái)畫這張圖讹堤。
注意一下這張圖的小細(xì)節(jié)吆鹤,圖的左上角有
Rep1、Rep2洲守、Rep3
疑务,左邊也有它們的聚類沾凄,我們看下它最終聚類結(jié)果的顏色深淺(顏色深淺代表不同的Rep)分布比較均勻,這就是為了說(shuō)明這三次重復(fù)里相同的細(xì)胞聚類在了一起知允,而不是各個(gè)批次聚類到了一起撒蟀,說(shuō)明了樣本重復(fù)的時(shí)候不是因?yàn)榕卧斐傻恼`差,而是兩種細(xì)胞真的有差別温鸽。再簡(jiǎn)單理解一下:
Rep1保屯、Rep2、Rep3
是混著去測(cè)的涤垫,每一次Rep都會(huì)側(cè)重測(cè)哪個(gè)細(xì)胞姑尺,但是每次Rep都會(huì)把所有的細(xì)胞都測(cè)了,通過(guò)行的聚類我們可以看到Rep1蝠猬、Rep2切蟋、Rep3
沒(méi)有出現(xiàn)那種情況:Rep1全都聚在一起,Rep2全都聚在一起....而是混在了一起榆芦,這就說(shuō)明生物學(xué)重復(fù)不是導(dǎo)致它聚類的原因柄粹,細(xì)胞之間FPKM的不同才是聚類的關(guān)鍵所在。
下面張圖是在說(shuō)匆绣,這篇文章用同樣的辦法分析了另外一件事:BP細(xì)胞可以分化成 AT1 & AT2 這兩種細(xì)胞镰惦,同時(shí)展示了:這兩種細(xì)胞從什么時(shí)候開(kāi)始分化的、分化過(guò)程中每一個(gè)階段的gene和他的表達(dá)譜是怎么變化的犬绒?
看下這張圖的中下部分,1這一列代表了BP細(xì)胞的表達(dá)譜兑凿,左邊分別是1-->2-->3-->4 這是BP細(xì)胞表達(dá)譜逐漸發(fā)生變化的過(guò)程凯力,最后穩(wěn)定成AT1 late
細(xì)胞。再向右看分別是 1-->5-->6礼华,這是它逐漸分化成AT2細(xì)胞的過(guò)程咐鹤,這就說(shuō)明了BP細(xì)胞在分化過(guò)程中存在基因表達(dá)調(diào)控的變化。
這是一張非常復(fù)雜的圖首先我們先把這張圖的數(shù)據(jù)理清:
最左上角
E14.5、E16.5扮匠、E18.5捧请、Adult
在說(shuō):對(duì)胚胎發(fā)育過(guò)程中的第14.5天、16.5天棒搜、18.5天疹蛉、21天和成熟期,分別進(jìn)行了single-cell 的 RNA-Seq力麸。右上角的圖例還是對(duì)FPKM取了log2可款,顏色亮的表示基因表達(dá)量高育韩,顏色暗代表基因表達(dá)量低。整張圖還是每行代表細(xì)胞闺鲸,每列代表基因筋讨,我們可以看到同種細(xì)胞之間聚到了一起,比如圖中:BP細(xì)胞和BP細(xì)胞聚到了一起摸恍,AT1和AT1聚到了一起悉罕,AT2和AT2聚到了一起,且BP正好落在AT1和AT2的中間误墓。這是一個(gè)非常非常難的一個(gè)聚類結(jié)果蛮粮,肯定調(diào)過(guò)參數(shù)的,為什么這么說(shuō)谜慌?AT1和AT2這兩種細(xì)胞是源于BP細(xì)胞的然想,這兩種細(xì)胞分化而來(lái)的表達(dá)譜,肯定會(huì)篩選一些基因來(lái)做這張圖才能做出來(lái)BP在中間欣范、AT1在上面变泄、AT2在下面這種理想效果。不能說(shuō)人家是假的恼琼,只能說(shuō)它肯定篩選過(guò)特定的基因也調(diào)整過(guò)參數(shù)~
底下的部分是將細(xì)胞分成不同的時(shí)期(Ⅰ妨蛹、Ⅱ、Ⅲ晴竞、Ⅳ蛙卤、Ⅴ),其中包括:
AT1的markers噩死、Ⅱa和Ⅱb颤难、Ⅲa和Ⅲb、Ⅳ已维、Ⅴa和Ⅴb
這幾組不同的基因行嗤,然后對(duì)每一組基因進(jìn)行GO分析,基因分析的結(jié)果是底下的小字部分垛耳。
下面這張圖是violin plot
栅屏,violin plot
是box plot
的補(bǔ)充√孟剩看圖:分化的不同階段EP-A --> EP-B --> Nascent --> AT1 --> BP --> Nascent --> AT2 --> Mature --> AT2
這些是細(xì)胞的類型栈雳,橫向Ⅰ/Ⅱ / Ⅲa / Ⅲb / Ⅳ / Ⅴa / Ⅴb
表示剛剛分出來(lái)的不同gene list,整體就是在說(shuō)在不同的gene list 里面基因的表達(dá)量是不一樣的泡嘴。有的gene list是隨著分化的進(jìn)行甫恩,表達(dá)量不斷降低,最典型的就是Ⅴb酌予;有的gene list 是隨著分化的進(jìn)行磺箕,表達(dá)量不斷上升奖慌,比如Ⅳ
文章結(jié)論:使用單細(xì)胞RNA-Seq測(cè)序技術(shù)將肺部分化發(fā)育的5種類型細(xì)胞按照其基因表達(dá)譜很好的分開(kāi)了,也提供了在分化表達(dá)時(shí)的gene marker松靡,也計(jì)算出來(lái)了一些在分化發(fā)育過(guò)程中每一個(gè)階段基因表達(dá)譜的變化简僧,也給出了分化過(guò)程中比較重要的gene list
文章用到的主要方法:
- 實(shí)驗(yàn)方面
單細(xì)胞RNA-Seq - 生信方面
RNA-Seq數(shù)據(jù)分析
PCA分析
heatmap分析
GO分析
violin plat
傳統(tǒng)的RNA-Seq的建庫(kù)方法
分成兩種:PolyA positive 和 rRNA minus/negative
PolyA positive原理:成熟的mRNA里面一般都會(huì)有 5' 端的的帽子和3' 端的PolyA尾巴,我們直接對(duì)PolyA進(jìn)行富集雕欺,就可以通過(guò)PolyA的數(shù)量間接估算成熟的mRNA的基因表達(dá)量岛马,但像小RNA、mcRNA這些不成熟的RNA就被忽略了屠列。
rRNA minus建庫(kù)方法:在建庫(kù)過(guò)程中90%以上的RNA都是rRNA(核糖體RNA)啦逆,但我們不需要估算rRNA的表達(dá)量,所以需要把rRNA去掉笛洛,把剩下的RNA全部測(cè)序夏志,該方法的優(yōu)勢(shì)在于,它可以把除rRNA以外的所有基因表達(dá)量都估算到苛让,缺點(diǎn)在于它把很多不成熟的前體和中間體也估出來(lái)了沟蔑。
下圖是一個(gè)真核生物的模式圖,rRNA(核糖體RNA)在真核細(xì)胞里主要分布在內(nèi)質(zhì)網(wǎng)上和游離在胞漿中
核糖體在合成蛋白的過(guò)程中分為大小兩個(gè)亞基狱杰,在真核生物中大亞基和小亞基是呈分離狀態(tài)的瘦材,小亞基找到mRNA時(shí)大亞基就會(huì)隨之結(jié)合過(guò)來(lái)開(kāi)始合成蛋白,所以仿畸,在整個(gè)細(xì)胞的活動(dòng)中核糖體合成蛋白是一個(gè)特別重要的部分食棕,它所涉及到的大亞基和小亞基的組成部分在細(xì)胞里含量是最高的,這也就是為什么rRNA在細(xì)胞里面含量是最高的错沽。
這是一個(gè)細(xì)菌核糖體的結(jié)構(gòu)宣蠕,黃色的部分都是rRNA;藍(lán)色的部分是核糖體蛋白甥捺,在人體里,大概有80種核糖體蛋白镀层。我們可以看到核糖體的主要部分都是由rRNA組成的镰禾,真正的蛋白起穩(wěn)定結(jié)構(gòu)的作用,因此唱逢,我們可以說(shuō)核糖體是一個(gè)以rRNA為主題結(jié)構(gòu)的帶有催化活性的細(xì)胞器吴侦,所以有人認(rèn)為,核糖體是我們體內(nèi)最大的核酶坞古。
核糖體(rRNA)分為大亞基和小亞基备韧,在真核生物里面,大亞基是由 5.8S痪枫、5S 织堂、28S 這三種rRNA組成的叠艳;小亞基是由18S rRNA組成的。5.8S 5S 28S 18S 這四種rRNA的含量在我們細(xì)胞中占絕大多數(shù)易阳,它可以占到95%以上附较,甚至99%以上,因此我們?cè)谶M(jìn)行RNA-Seq的時(shí)候如果不剔除它潦俺,或者是篩選出帶有PolyA尾巴的成熟的mRNA拒课,直接去建庫(kù)的話,那建出來(lái)的庫(kù)有99%的序列都是rRNA序列事示,測(cè)序時(shí)就測(cè)不到mRNA早像。
這也就是為什么傳統(tǒng)的RNA-Seq的建庫(kù)流程分成兩種:PolyA positive 和 rRNA minus/negative
這兩種建庫(kù)方法的具體流程:
polyA positive 建庫(kù)方法
先看左上,成熟的mRNA都是帶有PolyA尾巴的肖爵,現(xiàn)在建庫(kù)流程非常成熟卢鹦,有方便的kit,但我們還是要了解建庫(kù)的一般流程:
- 拿帶有 Oligo dT(帶一段T序列的磁珠)去富集帶有PolyA尾巴的成熟mRNA遏匆;
- 將富集到的mRNA反轉(zhuǎn)錄成cDNA法挨;
- 將反轉(zhuǎn)出來(lái)的cDNA打斷;
- 末端加上接頭幅聘;
- 加接頭后進(jìn)行PCR擴(kuò)增凡纳;
- 擴(kuò)增結(jié)束后建庫(kù)就完成了。
此過(guò)程中重要的步驟是帝蒿,3—>4將cDNA打斷的過(guò)程荐糜。cDNA被打斷后會(huì)形成一個(gè)不整齊的末端,需要進(jìn)行末端補(bǔ)平葛超,補(bǔ)平末端之后會(huì)在末端加個(gè)A暴氏,變成黏性末端,有了黏性末端就可以加上測(cè)序引物绣张,測(cè)序引物是一個(gè)Y形的答渔,所以我們?cè)诟鞣N示例圖里面會(huì)看到一個(gè)Y形的adapter(接頭)。
rRNA minus建庫(kù)方法
rRNA minus建庫(kù)流程:
- 提取出total RNA侥涵;
- 用綁有rRNA特異序列的磁珠將特定的rRNA吸附下來(lái)沼撕,也就是先用特異性磁珠對(duì)total RNA里的rRNA進(jìn)行粗去除;
- 將剩下的RNA打斷破碎芜飘;
- 加adapter后將RNA序列轉(zhuǎn)成cDNA务豺;
- 用RT 和 RNaseH 酶進(jìn)行消化,把沒(méi)有轉(zhuǎn)成cDNA的RNA消化掉嗦明,這時(shí)原來(lái)的RNA全部轉(zhuǎn)成了cDNA笼沥。
-
之后和上面一樣用cDNA去做文庫(kù)的構(gòu)建:cDNA末端加接頭 —> PCR擴(kuò)增 —> 建庫(kù)完成。
-
如何衡量建庫(kù)的第一步RNA提取的好壞?
提取出來(lái)的total RNA跑個(gè)電泳圖
電泳圖最左邊的lane是maker奔浅,其余的從左到右依次是從好到壞馆纳,最好的是左邊第二條lane,我們可以看到有三條特別明顯的條帶分別對(duì)應(yīng)的都是rRNA乘凸,在底部會(huì)有一些彌散厕诡。
除了通過(guò)跑膠來(lái)判斷,還有一個(gè)total RNA提取的質(zhì)控標(biāo)準(zhǔn)RIN(RNA Integrity Number)
RIN這個(gè)參數(shù)非常重要
提取好的RNA的標(biāo)準(zhǔn):至少能看到 5S/18S/28S的Region营勤,旁邊還能看到5.8S的小peak灵嫌。
比較下圖中 RIN10 RIN6 RIN3 RIN2,RIN數(shù)值越大越好葛作。最完美的情況就是提取出來(lái)的RNA完全沒(méi)有講解那就是RIN為10的情況寿羞,我們可以看到RIN10那張圖5S/18S/28S 那三個(gè)峰非常明顯,在橫坐標(biāo)為29的位置那是一個(gè)5.8S的小peak赂蠢,這就是非常非常好的理想情況了绪穆。我們建庫(kù)一般是要求RIN7以上,嚴(yán)格要求是RIN7.5-8以上虱岂,才能進(jìn)行建庫(kù)玖院。
單細(xì)胞測(cè)序技術(shù)簡(jiǎn)介
我們?yōu)槭裁葱枰獑渭?xì)胞測(cè)序?
我們拿今天的文章來(lái)說(shuō),同樣都是肺部的細(xì)胞第岖,肺泡細(xì)胞在形成過(guò)程中有上面介紹過(guò)的五種細(xì)胞:AT1难菌、AT2、BP蔑滓、Clara郊酒、Ciliated。這五種細(xì)胞都來(lái)源于肺键袱,但它們的表達(dá)譜真的不一樣燎窘,這就是單細(xì)胞存在的意義,它能夠告訴我們detail蹄咖。
看這里的小例子褐健,如圖,細(xì)胞里有四個(gè)基因:A澜汤、B铝量、C、D银亲。在1細(xì)胞里表達(dá)的有A、B纽匙、D务蝠;2細(xì)胞里表達(dá)的有A、B烛缔、C馏段;3細(xì)胞里表達(dá)的只有B轩拨。我們要是混在一起測(cè)就會(huì)發(fā)現(xiàn)ABCD都有表達(dá),但事實(shí)并不是這樣子院喜,這就是單細(xì)胞存在的意義亡蓉。
單細(xì)胞 RNA-seq測(cè)序技術(shù)最常用的是Smart-seq2
Smart-seq2操作流程:
- 1.將單細(xì)胞裂解;
- 用含有polyT的primer去富集含有polyA尾巴的RNA達(dá)到擴(kuò)增的目的喷舀;
-
擴(kuò)增完成后得到RNA(波浪線)和DNA(直線)砍濒,DNA用特殊的酶處理一端加上3個(gè)C,另一端特殊的引物會(huì)加G硫麻,所以說(shuō)現(xiàn)在兩邊就有引物可以擴(kuò)增爸邢,擴(kuò)增完之后比較有意思的地方是,它不用再打斷了拿愧,里面利用了Tn5這種酶杠河,Tn5這種酶可以特殊的識(shí)別某四個(gè)堿基然后把a(bǔ)dapter直接加上去。所以用Tn5酶處理后的就會(huì)在序列上隨機(jī)的加上adapter浇辜,就不用再片段化再補(bǔ)平在加adapter了券敌,就一步到位了,加上adapter之后柳洋,后面就完全一樣了待诅。這就非常方便了,這個(gè)技術(shù)好就好在膳灶,不用加polyA了咱士,取而代之的是加了三個(gè)G后用Tn5酶處理直接加上建庫(kù)的引物,所以效率比之前的高很多轧钓。
-
單細(xì)胞RNA-seq的數(shù)據(jù)分析
單細(xì)胞RNA-seq的數(shù)據(jù)分析跟普通的RNA-seq分析流程是一樣的序厉,單細(xì)胞 RNA-seq做的好的標(biāo)準(zhǔn)就是跟原來(lái)的RNA-seq比較,如果數(shù)據(jù)分析方法特別特殊的話毕箍,那還有什么可比性弛房。所以主要的部分都一樣:質(zhì)量控制 —> 比對(duì)前的處理 —> 把序列回帖到參考基因組上 —> 算不同基因的表達(dá)量 —> 比較差異表達(dá) 或 矯正不同的分布
總結(jié)起來(lái)還是四步:第一步,看數(shù)據(jù)質(zhì)量怎么樣而柑;第二步文捶,數(shù)據(jù)的前處理;第三步媒咳,比對(duì)粹排;第四步,計(jì)算表達(dá)量涩澡。
單細(xì)胞RNA-seq的數(shù)據(jù)分析流程:
- 1.raw data quality control
fastqc顽耳;cutadapt;fastx_trimmer - 2.mapping to the genome
tophat2;STAR射富;hisat/hisat2 - 3.remove the duplication
picard - 4.calculate FPKM
cufflinks - 5.find different expression genes
cuffdiff
這里需要強(qiáng)調(diào)一下膝迎,在一般的RNA-Seq分析過(guò)程中是不需要去重的remove the duplication
,但是對(duì)于單細(xì)胞轉(zhuǎn)錄組single-cell RNA-Seq
來(lái)說(shuō)需要去重remove the duplication
胰耗。
在正式進(jìn)行數(shù)據(jù)分析之前限次,首先需要把數(shù)據(jù)下載到服務(wù)器
0.數(shù)據(jù)下載
文章里作者會(huì)寫著把數(shù)據(jù)上傳到哪個(gè)數(shù)據(jù)庫(kù)了,一般都是NCBI里的GEO數(shù)據(jù)庫(kù)柴灯,根據(jù)作者給的GEO號(hào)我們直接去數(shù)據(jù)庫(kù)里下載就好卖漫。
這里只是舉個(gè)例子,演示一下如何下載數(shù)據(jù)弛槐,不是真實(shí)的文章數(shù)據(jù)
不管通過(guò)什么辦法吧懊亡,我們得到下載鏈接,去Linux命令行里用
wget
下載到服務(wù)器上乎串。下載完之后是
.sra
文件SRA文件是一個(gè)壓縮的二進(jìn)制文件 店枣,我們需要轉(zhuǎn)換一下文件格式。這就用到NCBI推出的
sra-tools
工具叹誉。安裝好之后鸯两,使用fastq-dump
解壓SRA文件我們需要根據(jù)實(shí)驗(yàn)內(nèi)容選擇具體的參數(shù),比如长豁,是雙端測(cè)序測(cè)序的話钧唐,我們需要把一個(gè)文件壓縮成兩個(gè)雙端,分別保存5'端的reads和3'端的reads:
fastq-dump -I --gzip --split-files SRR5315196.sra
解釋參數(shù):
-
-I
給reads增加一個(gè)編號(hào) -
--gzip
解壓出來(lái)的fastq文件再壓縮一下 變成SRR5315196.fastq.gz
匠襟,后面所有的處理都可以以gzip格式為標(biāo)準(zhǔn)輸入钝侠,這樣可以減少很多空間 -
--split-files
SRA文件把雙端測(cè)序壓縮到一個(gè)文件里了,所以我們需要把它雙端的數(shù)據(jù)解壓成不同的文件里酸舍,split-files 分文件嘛~
1.raw data quality control
單細(xì)胞RNA_Seq的數(shù)據(jù)質(zhì)量不會(huì)太好帅韧,我們做一個(gè)質(zhì)控fastqc
看看數(shù)據(jù)情況:
fastqc -t 10 -o ./ -q SRR5315196.fastq.gz
參數(shù)解釋:
-
-t
調(diào)用10個(gè)核 -
-o
輸出文件放到哪里 -
-q
沉默模式,只管運(yùn)行就好別說(shuō)話
橫坐標(biāo)1-101bp就是它測(cè)序長(zhǎng)度啃勉,縱軸就是測(cè)序質(zhì)量忽舟,數(shù)值越高越好,20就代表1%的錯(cuò)誤率淮阐。從圖中我們可以看到67以后測(cè)序錯(cuò)誤率非常的大叮阅,對(duì)于這樣的數(shù)據(jù)需要做很多trim
修整:1.先去測(cè)序接頭 2.去trim,保證trim的長(zhǎng)度是一致的比如我們這里可以trim到60或70泣特,為什么需要這樣呢浩姥?因?yàn)镽NA-Seq不只要做表達(dá)量的分析,做表達(dá)量分析reads的長(zhǎng)短是無(wú)所謂的状您,我們還要做可變剪切的分析勒叠,現(xiàn)在絕大多數(shù)的可變剪切數(shù)量都需要reads的長(zhǎng)度是一樣長(zhǎng)的镀裤,所以我們保留reads的時(shí)候要序列長(zhǎng)度一樣,比如都是70bp 或 都是75bp
1.1數(shù)據(jù)前處理—cutadapt去接頭
for case_name in SRR1033853
do
fastq_1=./raw.fastq/${case_name}_1.fastq.gz
fastq_2=./raw.fastq/${case_name}_2.fastq.gz
log_file=./raw.fastq/${case_name}_cutadapt.log
out_fastq_1=./raw.fastq/${case_name}_1_cutadapt.fastq.gz
out_fastq_2=./raw.fastq/${case_name}_2_cutadapt.fastq.gz
nohup cutadapt --times 1 -e 0.1 -O 3 --quality-cutoff 6 -m 75 -a AGATCGGAAGAGC -A AGATCGGAAGAGC -o $out_fastq_1 -p $out_fastq_2 $fastq_1 $fastq_2 > $log_file 2>&1 &
done
主要參數(shù)解釋:
-
--times 1 -e 0.1
都是trim的基本參數(shù)不用太考慮缴饭; -
-O 3
當(dāng)有3bp的adapt序列和我的reads能overlap上才去trim; -
-m 75
當(dāng)有一條序列低于75的時(shí)候這一對(duì)reads都不要了骆莹; -
-a -A
分別對(duì)reads1去3'端的adapter和reads2去5'端的adapter颗搂; -
-o
是輸出的內(nèi)容; -
-p
是輸入的內(nèi)容
最后把所有的log文件保存到log_file
里面幕垦。
1.2數(shù)據(jù)前處理—去trim
下面就是在做我們前面提到的丢氢, 去trim,保證trim的長(zhǎng)度是一致先改,都取6-75bp的部分疚察。
for case_name in SRR1033853
do
fastq_1=./raw.fastq/${case_name}_1_cutadapt.fastq.gz
fastq_2=./raw.fastq/${case_name}_2_cutadapt.fastq.gz
out_fastq_1=./raw.fastq/${case_name}_R1_trim.fq.gz
out_fastq_2=./raw.fastq/${case_name}_R2_trim.fq.gz
zcat $fastq_1 | fastx_trimmer -f 6 -l 75 -z -o $out_fastq_1 &
zcat $fastq_2 | fastx_trimmer -f 6 -l 75 -z -o $out_fastq_2 &
done
-
-z
參數(shù)的意思是輸出文件也要用gzip
壓縮
2. mapping to the genome
使用tophat2
把序列回帖到參考基因組上
mm10_index=/home/menghw/reference/mm10_fasta/mm10_genoem_bt2
for case_name in SRR1033853
do
fastq_1=./raw.fastq/${case_name}_R1_trim.fq.gz
fastq_2=./raw.fastq/${case_name}_R2_trim.fq.gz
output_dir=./${case_name}_tophat_result
log=./${case_name}_tophat_result/${case_name}_tophat.log
mkdir -p $output_dir
nohup tophat2 -p 32 -o $output_dir $mm10_index $fastq_1 $fastq_2 > $log 2>&1 &
done
-
-p 32
:調(diào)用了32個(gè)核在跑
3. remove the duplication
在一般的RNA-Seq分析過(guò)程中是不需要去重的
remove the duplication
,但是對(duì)于單細(xì)胞轉(zhuǎn)錄組single-cell RNA-Seq
來(lái)說(shuō)需要去重remove the duplication
仇奶。
mm10_index=/home/menghw/reference/mm10_fasta/mm9_genoem_bt2
for case_name in SRR1033853
do
input_bam=./${case_name}_tophat_result/accepted_hits.bam
out_bam=./${case_name}_tophat_result/accepted_hits_rmdup.bam
matrix_file=./${case_name}_tophat_result/accepted_hits_rmdup.matrix
log_file=./${case_name}_tophat_result/accepted_hits_rmdup.log
nohup java -Xms16g -Xmx32g -XX:ParallelGCThreads=32 -jar /home/menghw/my_software/picard/picard.jar MarkDuplicates INPUT=$input_bam OUTPUT=$out_bam METRICS_FILE=$matrix_file ASSUME_SORTED=true REMOVE_DUPLICATES=true > $log_file 2>&1 &
done
使用picard
程序remove the duplication時(shí)貌嫡,需要調(diào)用Java資源:
-
-Xms16g -Xmx32g
最小調(diào)用16G最大調(diào)用32G內(nèi)存 -
-XX:ParallelGCThreads=32
32個(gè)核在進(jìn)行運(yùn)算 -
-jar
后面指定picard.jar
程序路徑 -
METRICS_FILE=$matrix_file
這部分沒(méi)有任何用,給它一個(gè)文件名就好
4. calculate FPKM
GTF/gtf
文件是基因的注釋文件该溯,告訴我們基因在基因組上的位置
mm10_gtf=/home/menghw/reference/mm10_fasta/mm10_RefSeq.fix.gtf
for case_name in SRR1033853
do
cufflink_dir=./${case_name}_cufflink_result/
log=./${case_name}_cufflink_result/cufflink.log
bam_file=./${case_name}_tophat_result/accepted_hits_rmdup.bam
mkdir -p $cufflink_dir
nohup cufflinks -o $cufflink_dir -p 16 -G $mm10_gtf $bam_file > $log 2>&1 &
done
-
cufflink
:是用來(lái)計(jì)算FPKM的軟件 -
-o
:后面指定輸出文件位置 -
-p 16
:調(diào)用16個(gè)核 -
-G
:后跟下載好的基因注釋文件GTF
-
$bam_file
:命令cufflinks
的作用對(duì)象是比對(duì)的結(jié)果文件—bam
文件
4.1 下載GTF文件
GTF文件里記錄著是哪個(gè)基因來(lái)自于那條染色體以及起始坐標(biāo)岛抄,基因名是什么
gene_id
,轉(zhuǎn)錄本的名字是什么transcript_id
狈茉,基因別名是什么gene_name
夫椭。
一般gene_id
是官方命名,transcript_id
是轉(zhuǎn)錄組的名字一個(gè)基因可以對(duì)應(yīng)多個(gè)轉(zhuǎn)錄本氯庆。
去UCSC官網(wǎng):Tools
--->Table Browser里下載
主成分分析—PCA
Principal Component Analysis(PCA):簡(jiǎn)單來(lái)說(shuō)蹭秋,就是在尋找變量中最能代表這組數(shù)據(jù)的變量;用少數(shù)幾個(gè)變量的線性變化來(lái)代表原始數(shù)據(jù)堤撵,從而達(dá)到數(shù)據(jù)降維的目的仁讨。
主成分分析基本思想應(yīng)用
比如:描述兒童生長(zhǎng)發(fā)育的指標(biāo)中,身高粒督、腿長(zhǎng)和臂長(zhǎng)這3 個(gè)指標(biāo)可能是相關(guān)的陪竿,而胸圍、大腿圍和臂圍這3個(gè)圍度指標(biāo)也會(huì)有一定的相關(guān)性屠橄。如果分別用每一個(gè)指標(biāo)對(duì)兒童的生長(zhǎng)發(fā)育做出評(píng)價(jià)族跛,那么這種評(píng)價(jià)就是孤立的、片面的锐墙,而不是綜合的礁哄。僅選用幾個(gè)"重要的"或"有代表性"的指標(biāo)來(lái)評(píng)價(jià),就可能失去許多有用的信息溪北, 容易得出片面的結(jié)論桐绒。我們需要一種綜合性的分析方法夺脾,既可減少指標(biāo)變量個(gè)數(shù),又盡量不損失原指標(biāo)變量所包含的信息茉继,對(duì)資料進(jìn)行綜合分析咧叭。
再比如:學(xué)生的各科成績(jī)?nèi)缦拢?br>
我們發(fā)現(xiàn),數(shù)學(xué)科目的成績(jī)是影響總成績(jī)最重要的因素烁竭, 因?yàn)槠渌颇砍煽?jī)差別不?菲茬; 因此數(shù)學(xué)科目的成績(jī)就是我們這組數(shù)據(jù)的主成分。當(dāng)變量少的時(shí)候我們可以一眼看出哪個(gè)是主成分派撕,但是婉弹,當(dāng)變量非常多的時(shí)候, 我們不能直接“看”出主成分终吼, 因此需要用數(shù)學(xué)的方法進(jìn)行計(jì)算镀赌。
主成分分析數(shù)學(xué)實(shí)質(zhì)
我們的點(diǎn)是三維空間上的一個(gè)點(diǎn),也就是說(shuō)每一個(gè)變量是由三個(gè)子變量形成的际跪,PCA的目的就是找到一個(gè)平面商佛,將這些點(diǎn)投影到平面上,在該平面上的點(diǎn)必須能夠確定正交的兩個(gè)向量垫卤,通過(guò)這種方法就可以把三維空間上的點(diǎn)放在二維平面上研究威彰,避免了研究高維問(wèn)題。