解析單細(xì)胞RNA-Seq Nature文章

這是我聽(tīng)孟浩巍知乎Live:生信進(jìn)階第1課-重復(fù)Nature文章B站視頻:高通量測(cè)序技術(shù)交流錄像里的筆記哦~

單細(xì)胞RNA-Seq研究肺癌

目錄:

  • 文章的主要結(jié)論解讀
  • 傳統(tǒng)RNA-Seq建庫(kù)方法
  • 幾種主要的單細(xì)胞RNA-Seq建庫(kù)方法
  • 單細(xì)胞測(cè)序技術(shù)簡(jiǎn)介
  • 單細(xì)胞RNA-Seq的分析流程
  • 簡(jiǎn)單介紹主成分分析(PCA)

文章的主要結(jié)論解讀

Reconstructing lineage hierarchies of the distal lung epithelium using single-cell RNA-Seq
文章:用單細(xì)胞RNA-Seq的測(cè)序技術(shù)研究了肺部表皮發(fā)育相關(guān)的內(nèi)容

肺癌的分類

  • 小細(xì)胞肺癌
  • 非小細(xì)胞肺癌

其中非小細(xì)胞肺癌絕大部分是由環(huán)境因素和一些突變mutation造成的侮邀;小細(xì)胞肺癌大部分是由于自身的遺傳因素造成的,包括吸煙導(dǎo)致的肺癌都是非小細(xì)胞肺癌休玩。目前重點(diǎn)研究領(lǐng)域在非小細(xì)胞肺癌躏结。

文章的figure1一定會(huì)放它最主要最亮點(diǎn)的東西。
figure1a 拍了一張組織圖又畫了一張模式圖夸研,就是告訴我們邦蜜,肺泡在發(fā)育和分化過(guò)程中一共涉及到5種細(xì)胞:AT1、AT2亥至、BP悼沈、Clara、Ciliated姐扮。

figure1b 給了我們非常簡(jiǎn)單明了的解釋絮供,通過(guò)PCA的辦法用第一維主成分(PC1)和第三維主成分(PC3)可以把這五種單細(xì)胞完全分開(kāi),這就說(shuō)明了從基因表達(dá)譜的水平上這五種細(xì)胞確實(shí)是有不同的茶敏,這就是這篇文章的核心了:用單細(xì)胞的RNA水平也就是轉(zhuǎn)錄本的表達(dá)水平來(lái)分離不同分化階段的細(xì)胞壤靶。

figure1

這篇文章的研究重點(diǎn)是:

    1. AT1、AT2來(lái)源于BP細(xì)胞嗎惊搏?
    1. 這五種細(xì)胞在基因?qū)用婺芊穹值拈_(kāi)贮乳,它的分化水平和分化過(guò)程到底是什么?
    1. 在分化的過(guò)程中有沒(méi)有特定的gene marker恬惯?

figure2用headmap鑒定/聚類出每一種細(xì)胞有沒(méi)有特定的gene marker向拆,來(lái)仔細(xì)看下這張圖:
首先整體上看下這張圖的顏色,顏色是FPKM(基因表達(dá)量)取過(guò)log2之后的在0-15之間的數(shù)宿崭。每一行代表一個(gè)細(xì)胞的數(shù)據(jù)亲铡,每一列是一個(gè)基因的數(shù)據(jù),這張圖大概由80多行葡兑,也就是它是一個(gè)80多個(gè)細(xì)胞的數(shù)據(jù)奖蔓,有100多列,也就是說(shuō)它從眾多眾多基因里面選出了100多個(gè)有代表性的基因來(lái)畫這張圖讹堤。

figure2

注意一下這張圖的小細(xì)節(jié)吆鹤,圖的左上角有Rep1、Rep2洲守、Rep3疑务,左邊也有它們的聚類沾凄,我們看下它最終聚類結(jié)果的顏色深淺(顏色深淺代表不同的Rep)分布比較均勻,這就是為了說(shuō)明這三次重復(fù)里相同的細(xì)胞聚類在了一起知允,而不是各個(gè)批次聚類到了一起撒蟀,說(shuō)明了樣本重復(fù)的時(shí)候不是因?yàn)榕卧斐傻恼`差,而是兩種細(xì)胞真的有差別温鸽。
再簡(jiǎn)單理解一下:Rep1保屯、Rep2、Rep3是混著去測(cè)的涤垫,每一次Rep都會(huì)側(cè)重測(cè)哪個(gè)細(xì)胞姑尺,但是每次Rep都會(huì)把所有的細(xì)胞都測(cè)了,通過(guò)行的聚類我們可以看到Rep1蝠猬、Rep2切蟋、Rep3沒(méi)有出現(xiàn)那種情況:Rep1全都聚在一起,Rep2全都聚在一起....而是混在了一起榆芦,這就說(shuō)明生物學(xué)重復(fù)不是導(dǎo)致它聚類的原因柄粹,細(xì)胞之間FPKM的不同才是聚類的關(guān)鍵所在。

下面張圖是在說(shuō)匆绣,這篇文章用同樣的辦法分析了另外一件事:BP細(xì)胞可以分化成 AT1 & AT2 這兩種細(xì)胞镰惦,同時(shí)展示了:這兩種細(xì)胞從什么時(shí)候開(kāi)始分化的、分化過(guò)程中每一個(gè)階段的gene和他的表達(dá)譜是怎么變化的犬绒?
看下這張圖的中下部分,1這一列代表了BP細(xì)胞的表達(dá)譜兑凿,左邊分別是1-->2-->3-->4 這是BP細(xì)胞表達(dá)譜逐漸發(fā)生變化的過(guò)程凯力,最后穩(wěn)定成AT1 late細(xì)胞。再向右看分別是 1-->5-->6礼华,這是它逐漸分化成AT2細(xì)胞的過(guò)程咐鹤,這就說(shuō)明了BP細(xì)胞在分化過(guò)程中存在基因表達(dá)調(diào)控的變化。

對(duì)比AT1 & AT2的分化過(guò)程圣絮,可以看到表達(dá)譜的顯著變化祈惶;從而可以推測(cè)每個(gè)時(shí)期的重要marker gene

這是一張非常復(fù)雜的圖首先我們先把這張圖的數(shù)據(jù)理清:
最左上角E14.5、E16.5扮匠、E18.5捧请、Adult在說(shuō):對(duì)胚胎發(fā)育過(guò)程中的第14.5天、16.5天棒搜、18.5天疹蛉、21天和成熟期,分別進(jìn)行了single-cell 的 RNA-Seq力麸。右上角的圖例還是對(duì)FPKM取了log2可款,顏色亮的表示基因表達(dá)量高育韩,顏色暗代表基因表達(dá)量低。整張圖還是每行代表細(xì)胞闺鲸,每列代表基因筋讨,我們可以看到同種細(xì)胞之間聚到了一起,比如圖中:BP細(xì)胞和BP細(xì)胞聚到了一起摸恍,AT1和AT1聚到了一起悉罕,AT2和AT2聚到了一起,且BP正好落在AT1和AT2的中間误墓。這是一個(gè)非常非常難的一個(gè)聚類結(jié)果蛮粮,肯定調(diào)過(guò)參數(shù)的,為什么這么說(shuō)谜慌?
5種細(xì)胞的不同表達(dá)譜對(duì)應(yīng)了不同的marker genes

AT1和AT2這兩種細(xì)胞是源于BP細(xì)胞的然想,這兩種細(xì)胞分化而來(lái)的表達(dá)譜,肯定會(huì)篩選一些基因來(lái)做這張圖才能做出來(lái)BP在中間欣范、AT1在上面变泄、AT2在下面這種理想效果。不能說(shuō)人家是假的恼琼,只能說(shuō)它肯定篩選過(guò)特定的基因也調(diào)整過(guò)參數(shù)~
底下的部分是將細(xì)胞分成不同的時(shí)期(Ⅰ妨蛹、Ⅱ、Ⅲ晴竞、Ⅳ蛙卤、Ⅴ),其中包括:AT1的markers噩死、Ⅱa和Ⅱb颤难、Ⅲa和Ⅲb、Ⅳ已维、Ⅴa和Ⅴb這幾組不同的基因行嗤,然后對(duì)每一組基因進(jìn)行GO分析,基因分析的結(jié)果是底下的小字部分垛耳。

下面這張圖是violin plot栅屏,violin plotbox plot的補(bǔ)充√孟剩看圖:分化的不同階段EP-A --> EP-B --> Nascent --> AT1 --> BP --> Nascent --> AT2 --> Mature --> AT2這些是細(xì)胞的類型栈雳,橫向Ⅰ/Ⅱ / Ⅲa / Ⅲb / Ⅳ / Ⅴa / Ⅴb表示剛剛分出來(lái)的不同gene list,整體就是在說(shuō)在不同的gene list 里面基因的表達(dá)量是不一樣的泡嘴。有的gene list是隨著分化的進(jìn)行甫恩,表達(dá)量不斷降低,最典型的就是Ⅴb酌予;有的gene list 是隨著分化的進(jìn)行磺箕,表達(dá)量不斷上升奖慌,比如

5種細(xì)胞的不同表達(dá)譜總體表達(dá)分布的變化

文章結(jié)論:使用單細(xì)胞RNA-Seq測(cè)序技術(shù)將肺部分化發(fā)育的5種類型細(xì)胞按照其基因表達(dá)譜很好的分開(kāi)了,也提供了在分化表達(dá)時(shí)的gene marker松靡,也計(jì)算出來(lái)了一些在分化發(fā)育過(guò)程中每一個(gè)階段基因表達(dá)譜的變化简僧,也給出了分化過(guò)程中比較重要的gene list

文章用到的主要方法:

  • 實(shí)驗(yàn)方面
    單細(xì)胞RNA-Seq
  • 生信方面
    RNA-Seq數(shù)據(jù)分析
    PCA分析
    heatmap分析
    GO分析
    violin plat

傳統(tǒng)的RNA-Seq的建庫(kù)方法

分成兩種:PolyA positive 和 rRNA minus/negative

PolyA positive原理:成熟的mRNA里面一般都會(huì)有 5' 端的的帽子和3' 端的PolyA尾巴,我們直接對(duì)PolyA進(jìn)行富集雕欺,就可以通過(guò)PolyA的數(shù)量間接估算成熟的mRNA的基因表達(dá)量岛马,但像小RNA、mcRNA這些不成熟的RNA就被忽略了屠列。

rRNA minus建庫(kù)方法:在建庫(kù)過(guò)程中90%以上的RNA都是rRNA(核糖體RNA)啦逆,但我們不需要估算rRNA的表達(dá)量,所以需要把rRNA去掉笛洛,把剩下的RNA全部測(cè)序夏志,該方法的優(yōu)勢(shì)在于,它可以把除rRNA以外的所有基因表達(dá)量都估算到苛让,缺點(diǎn)在于它把很多不成熟的前體和中間體也估出來(lái)了沟蔑。

下圖是一個(gè)真核生物的模式圖,rRNA(核糖體RNA)在真核細(xì)胞里主要分布在內(nèi)質(zhì)網(wǎng)上游離在胞漿中

真核生物的模式圖

核糖體在合成蛋白的過(guò)程中分為大小兩個(gè)亞基狱杰,在真核生物中大亞基和小亞基是呈分離狀態(tài)的瘦材,小亞基找到mRNA時(shí)大亞基就會(huì)隨之結(jié)合過(guò)來(lái)開(kāi)始合成蛋白,所以仿畸,在整個(gè)細(xì)胞的活動(dòng)中核糖體合成蛋白是一個(gè)特別重要的部分食棕,它所涉及到的大亞基和小亞基的組成部分在細(xì)胞里含量是最高的,這也就是為什么rRNA在細(xì)胞里面含量是最高的错沽。


核糖體合成蛋白的過(guò)程

這是一個(gè)細(xì)菌核糖體的結(jié)構(gòu)宣蠕,黃色的部分都是rRNA;藍(lán)色的部分是核糖體蛋白甥捺,在人體里,大概有80種核糖體蛋白镀层。我們可以看到核糖體的主要部分都是由rRNA組成的镰禾,真正的蛋白起穩(wěn)定結(jié)構(gòu)的作用,因此唱逢,我們可以說(shuō)核糖體是一個(gè)以rRNA為主題結(jié)構(gòu)的帶有催化活性的細(xì)胞器吴侦,所以有人認(rèn)為,核糖體是我們體內(nèi)最大的核酶坞古。

細(xì)菌核糖體的結(jié)構(gòu)

核糖體(rRNA)分為大亞基和小亞基备韧,在真核生物里面,大亞基是由 5.8S痪枫、5S 织堂、28S 這三種rRNA組成的叠艳;小亞基是由18S rRNA組成的。5.8S 5S 28S 18S 這四種rRNA的含量在我們細(xì)胞中占絕大多數(shù)易阳,它可以占到95%以上附较,甚至99%以上,因此我們?cè)谶M(jìn)行RNA-Seq的時(shí)候如果不剔除它潦俺,或者是篩選出帶有PolyA尾巴的成熟的mRNA拒课,直接去建庫(kù)的話,那建出來(lái)的庫(kù)有99%的序列都是rRNA序列事示,測(cè)序時(shí)就測(cè)不到mRNA早像。

核糖體rRNA里面的組成成分

這也就是為什么傳統(tǒng)的RNA-Seq的建庫(kù)流程分成兩種:PolyA positive 和 rRNA minus/negative

這兩種建庫(kù)方法的具體流程:

polyA positive 建庫(kù)方法

先看左上,成熟的mRNA都是帶有PolyA尾巴的肖爵,現(xiàn)在建庫(kù)流程非常成熟卢鹦,有方便的kit,但我們還是要了解建庫(kù)的一般流程:

    1. 拿帶有 Oligo dT(帶一段T序列的磁珠)去富集帶有PolyA尾巴的成熟mRNA遏匆;
    1. 將富集到的mRNA反轉(zhuǎn)錄成cDNA法挨;
    1. 將反轉(zhuǎn)出來(lái)的cDNA打斷;
    1. 末端加上接頭幅聘;
    1. 加接頭后進(jìn)行PCR擴(kuò)增凡纳;
    1. 擴(kuò)增結(jié)束后建庫(kù)就完成了。

polyA positive 建庫(kù)方法

此過(guò)程中重要的步驟是帝蒿,3—>4將cDNA打斷的過(guò)程荐糜。cDNA被打斷后會(huì)形成一個(gè)不整齊的末端,需要進(jìn)行末端補(bǔ)平葛超,補(bǔ)平末端之后會(huì)在末端加個(gè)A暴氏,變成黏性末端,有了黏性末端就可以加上測(cè)序引物绣张,測(cè)序引物是一個(gè)Y形的答渔,所以我們?cè)诟鞣N示例圖里面會(huì)看到一個(gè)Y形的adapter(接頭)。

rRNA minus建庫(kù)方法

rRNA minus建庫(kù)流程:

    1. 提取出total RNA侥涵;
    1. 用綁有rRNA特異序列的磁珠將特定的rRNA吸附下來(lái)沼撕,也就是先用特異性磁珠對(duì)total RNA里的rRNA進(jìn)行粗去除;
    1. 將剩下的RNA打斷破碎芜飘;
    1. 加adapter后將RNA序列轉(zhuǎn)成cDNA务豺;
    1. 用RT 和 RNaseH 酶進(jìn)行消化,把沒(méi)有轉(zhuǎn)成cDNA的RNA消化掉嗦明,這時(shí)原來(lái)的RNA全部轉(zhuǎn)成了cDNA笼沥。
    1. 之后和上面一樣用cDNA去做文庫(kù)的構(gòu)建:cDNA末端加接頭 —> PCR擴(kuò)增 —> 建庫(kù)完成。


      rRNA minus建庫(kù)流程

如何衡量建庫(kù)的第一步RNA提取的好壞?

提取出來(lái)的total RNA跑個(gè)電泳圖
電泳圖最左邊的lane是maker奔浅,其余的從左到右依次是從好到壞馆纳,最好的是左邊第二條lane,我們可以看到有三條特別明顯的條帶分別對(duì)應(yīng)的都是rRNA乘凸,在底部會(huì)有一些彌散厕诡。

total RNA提取的電泳圖

除了通過(guò)跑膠來(lái)判斷,還有一個(gè)total RNA提取的質(zhì)控標(biāo)準(zhǔn)RIN(RNA Integrity Number)
RIN這個(gè)參數(shù)非常重要
提取好的RNA的標(biāo)準(zhǔn):至少能看到 5S/18S/28S的Region营勤,旁邊還能看到5.8S的小peak灵嫌。
total RNA提取的質(zhì)控標(biāo)準(zhǔn)RIN(RNA Integrity Number)

比較下圖中 RIN10 RIN6 RIN3 RIN2,RIN數(shù)值越大越好葛作。最完美的情況就是提取出來(lái)的RNA完全沒(méi)有講解那就是RIN為10的情況寿羞,我們可以看到RIN10那張圖5S/18S/28S 那三個(gè)峰非常明顯,在橫坐標(biāo)為29的位置那是一個(gè)5.8S的小peak赂蠢,這就是非常非常好的理想情況了绪穆。我們建庫(kù)一般是要求RIN7以上,嚴(yán)格要求是RIN7.5-8以上虱岂,才能進(jìn)行建庫(kù)玖院。
RNA Integrity Number

單細(xì)胞測(cè)序技術(shù)簡(jiǎn)介

我們?yōu)槭裁葱枰獑渭?xì)胞測(cè)序?

我們拿今天的文章來(lái)說(shuō),同樣都是肺部的細(xì)胞第岖,肺泡細(xì)胞在形成過(guò)程中有上面介紹過(guò)的五種細(xì)胞:AT1难菌、AT2、BP蔑滓、Clara郊酒、Ciliated。這五種細(xì)胞都來(lái)源于肺键袱,但它們的表達(dá)譜真的不一樣燎窘,這就是單細(xì)胞存在的意義,它能夠告訴我們detail蹄咖。


Single-cell genome sequencing

看這里的小例子褐健,如圖,細(xì)胞里有四個(gè)基因:A澜汤、B铝量、C、D银亲。在1細(xì)胞里表達(dá)的有A、B纽匙、D务蝠;2細(xì)胞里表達(dá)的有A、B烛缔、C馏段;3細(xì)胞里表達(dá)的只有B轩拨。我們要是混在一起測(cè)就會(huì)發(fā)現(xiàn)ABCD都有表達(dá),但事實(shí)并不是這樣子院喜,這就是單細(xì)胞存在的意義亡蓉。


單細(xì)胞 RNA-seq測(cè)序技術(shù)最常用的是Smart-seq2

Smart-seq2操作流程:

  • 1.將單細(xì)胞裂解;
    1. 用含有polyT的primer去富集含有polyA尾巴的RNA達(dá)到擴(kuò)增的目的喷舀;
    1. 擴(kuò)增完成后得到RNA(波浪線)和DNA(直線)砍濒,DNA用特殊的酶處理一端加上3個(gè)C,另一端特殊的引物會(huì)加G硫麻,所以說(shuō)現(xiàn)在兩邊就有引物可以擴(kuò)增爸邢,擴(kuò)增完之后比較有意思的地方是,它不用再打斷了拿愧,里面利用了Tn5這種酶杠河,Tn5這種酶可以特殊的識(shí)別某四個(gè)堿基然后把a(bǔ)dapter直接加上去。所以用Tn5酶處理后的就會(huì)在序列上隨機(jī)的加上adapter浇辜,就不用再片段化再補(bǔ)平在加adapter了券敌,就一步到位了,加上adapter之后柳洋,后面就完全一樣了待诅。這就非常方便了,這個(gè)技術(shù)好就好在膳灶,不用加polyA了咱士,取而代之的是加了三個(gè)G后用Tn5酶處理直接加上建庫(kù)的引物,所以效率比之前的高很多轧钓。


單細(xì)胞RNA-seq的數(shù)據(jù)分析

單細(xì)胞RNA-seq的數(shù)據(jù)分析跟普通的RNA-seq分析流程是一樣的序厉,單細(xì)胞 RNA-seq做的好的標(biāo)準(zhǔn)就是跟原來(lái)的RNA-seq比較,如果數(shù)據(jù)分析方法特別特殊的話毕箍,那還有什么可比性弛房。所以主要的部分都一樣:質(zhì)量控制 —> 比對(duì)前的處理 —> 把序列回帖到參考基因組上 —> 算不同基因的表達(dá)量 —> 比較差異表達(dá) 或 矯正不同的分布
總結(jié)起來(lái)還是四步:第一步,看數(shù)據(jù)質(zhì)量怎么樣而柑;第二步文捶,數(shù)據(jù)的前處理;第三步媒咳,比對(duì)粹排;第四步,計(jì)算表達(dá)量涩澡。
單細(xì)胞RNA-seq的數(shù)據(jù)分析流程:

  • 1.raw data quality control
    fastqc顽耳;cutadapt;fastx_trimmer
  • 2.mapping to the genome
    tophat2;STAR射富;hisat/hisat2
  • 3.remove the duplication
    picard
  • 4.calculate FPKM
    cufflinks
  • 5.find different expression genes
    cuffdiff

這里需要強(qiáng)調(diào)一下膝迎,在一般的RNA-Seq分析過(guò)程中是不需要去重的remove the duplication,但是對(duì)于單細(xì)胞轉(zhuǎn)錄組single-cell RNA-Seq來(lái)說(shuō)需要去重remove the duplication胰耗。

在正式進(jìn)行數(shù)據(jù)分析之前限次,首先需要把數(shù)據(jù)下載到服務(wù)器

0.數(shù)據(jù)下載

文章里作者會(huì)寫著把數(shù)據(jù)上傳到哪個(gè)數(shù)據(jù)庫(kù)了,一般都是NCBI里的GEO數(shù)據(jù)庫(kù)柴灯,根據(jù)作者給的GEO號(hào)我們直接去數(shù)據(jù)庫(kù)里下載就好卖漫。
這里只是舉個(gè)例子,演示一下如何下載數(shù)據(jù)弛槐,不是真實(shí)的文章數(shù)據(jù)


不管通過(guò)什么辦法吧懊亡,我們得到下載鏈接,去Linux命令行里用wget下載到服務(wù)器上乎串。
下載完之后是.sra文件

SRA文件是一個(gè)壓縮的二進(jìn)制文件 店枣,我們需要轉(zhuǎn)換一下文件格式。這就用到NCBI推出的sra-tools工具叹誉。安裝好之后鸯两,使用fastq-dump解壓SRA文件
我們需要根據(jù)實(shí)驗(yàn)內(nèi)容選擇具體的參數(shù),比如长豁,是雙端測(cè)序測(cè)序的話钧唐,我們需要把一個(gè)文件壓縮成兩個(gè)雙端,分別保存5'端的reads和3'端的reads:

fastq-dump -I --gzip --split-files SRR5315196.sra

解釋參數(shù):

  • -I 給reads增加一個(gè)編號(hào)
  • --gzip 解壓出來(lái)的fastq文件再壓縮一下 變成SRR5315196.fastq.gz 匠襟,后面所有的處理都可以以gzip格式為標(biāo)準(zhǔn)輸入钝侠,這樣可以減少很多空間
  • --split-files SRA文件把雙端測(cè)序壓縮到一個(gè)文件里了,所以我們需要把它雙端的數(shù)據(jù)解壓成不同的文件里酸舍,split-files 分文件嘛~

1.raw data quality control

單細(xì)胞RNA_Seq的數(shù)據(jù)質(zhì)量不會(huì)太好帅韧,我們做一個(gè)質(zhì)控fastqc看看數(shù)據(jù)情況:

fastqc -t 10 -o ./ -q SRR5315196.fastq.gz

參數(shù)解釋:

  • -t 調(diào)用10個(gè)核
  • -o 輸出文件放到哪里
  • -q 沉默模式,只管運(yùn)行就好別說(shuō)話
    fastqc報(bào)告

    橫坐標(biāo)1-101bp就是它測(cè)序長(zhǎng)度啃勉,縱軸就是測(cè)序質(zhì)量忽舟,數(shù)值越高越好,20就代表1%的錯(cuò)誤率淮阐。從圖中我們可以看到67以后測(cè)序錯(cuò)誤率非常的大叮阅,對(duì)于這樣的數(shù)據(jù)需要做很多trim修整:1.先去測(cè)序接頭 2.去trim,保證trim的長(zhǎng)度是一致的比如我們這里可以trim到60或70泣特,為什么需要這樣呢浩姥?因?yàn)镽NA-Seq不只要做表達(dá)量的分析,做表達(dá)量分析reads的長(zhǎng)短是無(wú)所謂的状您,我們還要做可變剪切的分析勒叠,現(xiàn)在絕大多數(shù)的可變剪切數(shù)量都需要reads的長(zhǎng)度是一樣長(zhǎng)的镀裤,所以我們保留reads的時(shí)候要序列長(zhǎng)度一樣,比如都是70bp 或 都是75bp

1.1數(shù)據(jù)前處理—cutadapt去接頭

去接頭
for case_name in SRR1033853 
do
    fastq_1=./raw.fastq/${case_name}_1.fastq.gz
    fastq_2=./raw.fastq/${case_name}_2.fastq.gz
    log_file=./raw.fastq/${case_name}_cutadapt.log
    out_fastq_1=./raw.fastq/${case_name}_1_cutadapt.fastq.gz
    out_fastq_2=./raw.fastq/${case_name}_2_cutadapt.fastq.gz
    nohup cutadapt  --times 1  -e 0.1  -O 3  --quality-cutoff 6  -m 75 -a AGATCGGAAGAGC -A AGATCGGAAGAGC  -o $out_fastq_1 -p $out_fastq_2 $fastq_1 $fastq_2 > $log_file 2>&1 &
done

主要參數(shù)解釋:

  • --times 1 -e 0.1都是trim的基本參數(shù)不用太考慮缴饭;
  • -O 3 當(dāng)有3bp的adapt序列和我的reads能overlap上才去trim;
  • -m 75 當(dāng)有一條序列低于75的時(shí)候這一對(duì)reads都不要了骆莹;
  • -a -A分別對(duì)reads1去3'端的adapter和reads2去5'端的adapter颗搂;
  • -o 是輸出的內(nèi)容;
  • -p 是輸入的內(nèi)容

最后把所有的log文件保存到log_file里面幕垦。

1.2數(shù)據(jù)前處理—去trim

下面就是在做我們前面提到的丢氢, 去trim,保證trim的長(zhǎng)度是一致先改,都取6-75bp的部分疚察。


去trim
for case_name in SRR1033853
do
    fastq_1=./raw.fastq/${case_name}_1_cutadapt.fastq.gz
    fastq_2=./raw.fastq/${case_name}_2_cutadapt.fastq.gz
    out_fastq_1=./raw.fastq/${case_name}_R1_trim.fq.gz
    out_fastq_2=./raw.fastq/${case_name}_R2_trim.fq.gz

    zcat $fastq_1 | fastx_trimmer -f 6 -l 75 -z -o $out_fastq_1 & 
    zcat $fastq_2 | fastx_trimmer -f 6 -l 75 -z -o $out_fastq_2 & 
done
  • -z參數(shù)的意思是輸出文件也要用gzip壓縮

2. mapping to the genome

使用tophat2把序列回帖到參考基因組上

tophat2比對(duì)

mm10_index=/home/menghw/reference/mm10_fasta/mm10_genoem_bt2

for case_name in SRR1033853
do
    fastq_1=./raw.fastq/${case_name}_R1_trim.fq.gz
    fastq_2=./raw.fastq/${case_name}_R2_trim.fq.gz

    output_dir=./${case_name}_tophat_result
    log=./${case_name}_tophat_result/${case_name}_tophat.log

    mkdir -p $output_dir

    nohup tophat2 -p 32 -o $output_dir $mm10_index $fastq_1 $fastq_2 > $log 2>&1 &
done
  • -p 32:調(diào)用了32個(gè)核在跑

3. remove the duplication

在一般的RNA-Seq分析過(guò)程中是不需要去重的remove the duplication,但是對(duì)于單細(xì)胞轉(zhuǎn)錄組single-cell RNA-Seq來(lái)說(shuō)需要去重remove the duplication仇奶。

mm10_index=/home/menghw/reference/mm10_fasta/mm9_genoem_bt2

for case_name in SRR1033853
do
    input_bam=./${case_name}_tophat_result/accepted_hits.bam
    out_bam=./${case_name}_tophat_result/accepted_hits_rmdup.bam
    matrix_file=./${case_name}_tophat_result/accepted_hits_rmdup.matrix
    log_file=./${case_name}_tophat_result/accepted_hits_rmdup.log

    nohup java -Xms16g -Xmx32g -XX:ParallelGCThreads=32 -jar /home/menghw/my_software/picard/picard.jar MarkDuplicates  INPUT=$input_bam  OUTPUT=$out_bam METRICS_FILE=$matrix_file  ASSUME_SORTED=true REMOVE_DUPLICATES=true > $log_file 2>&1 &
done

使用picard程序remove the duplication時(shí)貌嫡,需要調(diào)用Java資源:

  • -Xms16g -Xmx32g最小調(diào)用16G最大調(diào)用32G內(nèi)存
  • -XX:ParallelGCThreads=3232個(gè)核在進(jìn)行運(yùn)算
  • -jar 后面指定picard.jar程序路徑
  • METRICS_FILE=$matrix_file 這部分沒(méi)有任何用,給它一個(gè)文件名就好

4. calculate FPKM

GTF/gtf文件是基因的注釋文件该溯,告訴我們基因在基因組上的位置

mm10_gtf=/home/menghw/reference/mm10_fasta/mm10_RefSeq.fix.gtf

for case_name in SRR1033853
do
    cufflink_dir=./${case_name}_cufflink_result/
    log=./${case_name}_cufflink_result/cufflink.log
    bam_file=./${case_name}_tophat_result/accepted_hits_rmdup.bam

    mkdir -p $cufflink_dir
    nohup cufflinks -o $cufflink_dir -p 16 -G $mm10_gtf $bam_file > $log 2>&1 &
done
  • cufflink:是用來(lái)計(jì)算FPKM的軟件
  • -o:后面指定輸出文件位置
  • -p 16:調(diào)用16個(gè)核
  • -G:后跟下載好的基因注釋文件GTF
  • $bam_file:命令cufflinks的作用對(duì)象是比對(duì)的結(jié)果文件—bam文件

4.1 下載GTF文件

GTF文件里記錄著是哪個(gè)基因來(lái)自于那條染色體以及起始坐標(biāo)岛抄,基因名是什么gene_id,轉(zhuǎn)錄本的名字是什么transcript_id狈茉,基因別名是什么gene_name夫椭。
一般gene_id是官方命名,transcript_id是轉(zhuǎn)錄組的名字一個(gè)基因可以對(duì)應(yīng)多個(gè)轉(zhuǎn)錄本氯庆。

去UCSC官網(wǎng):Tools--->Table Browser里下載

下載GTF文件

主成分分析—PCA

Principal Component Analysis(PCA):簡(jiǎn)單來(lái)說(shuō)蹭秋,就是在尋找變量中最能代表這組數(shù)據(jù)的變量;用少數(shù)幾個(gè)變量的線性變化來(lái)代表原始數(shù)據(jù)堤撵,從而達(dá)到數(shù)據(jù)降維的目的仁讨。

主成分分析基本思想應(yīng)用
比如:描述兒童生長(zhǎng)發(fā)育的指標(biāo)中,身高粒督、腿長(zhǎng)和臂長(zhǎng)這3 個(gè)指標(biāo)可能是相關(guān)的陪竿,而胸圍、大腿圍和臂圍這3個(gè)圍度指標(biāo)也會(huì)有一定的相關(guān)性屠橄。如果分別用每一個(gè)指標(biāo)對(duì)兒童的生長(zhǎng)發(fā)育做出評(píng)價(jià)族跛,那么這種評(píng)價(jià)就是孤立的、片面的锐墙,而不是綜合的礁哄。僅選用幾個(gè)"重要的"或"有代表性"的指標(biāo)來(lái)評(píng)價(jià),就可能失去許多有用的信息溪北, 容易得出片面的結(jié)論桐绒。我們需要一種綜合性的分析方法夺脾,既可減少指標(biāo)變量個(gè)數(shù),又盡量不損失原指標(biāo)變量所包含的信息茉继,對(duì)資料進(jìn)行綜合分析咧叭。

再比如:學(xué)生的各科成績(jī)?nèi)缦拢?br>


我們發(fā)現(xiàn),數(shù)學(xué)科目的成績(jī)是影響總成績(jī)最重要的因素烁竭, 因?yàn)槠渌颇砍煽?jī)差別不?菲茬; 因此數(shù)學(xué)科目的成績(jī)就是我們這組數(shù)據(jù)的主成分。當(dāng)變量少的時(shí)候我們可以一眼看出哪個(gè)是主成分派撕,但是婉弹,當(dāng)變量非常多的時(shí)候, 我們不能直接“看”出主成分终吼, 因此需要用數(shù)學(xué)的方法進(jìn)行計(jì)算镀赌。

主成分分析數(shù)學(xué)實(shí)質(zhì)


我們的點(diǎn)是三維空間上的一個(gè)點(diǎn),也就是說(shuō)每一個(gè)變量是由三個(gè)子變量形成的际跪,PCA的目的就是找到一個(gè)平面商佛,將這些點(diǎn)投影到平面上,在該平面上的點(diǎn)必須能夠確定正交的兩個(gè)向量垫卤,通過(guò)這種方法就可以把三維空間上的點(diǎn)放在二維平面上研究威彰,避免了研究高維問(wèn)題。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末穴肘,一起剝皮案震驚了整個(gè)濱河市歇盼,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌评抚,老刑警劉巖豹缀,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異慨代,居然都是意外死亡邢笙,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門侍匙,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)氮惯,“玉大人,你說(shuō)我怎么就攤上這事想暗「竞梗” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵说莫,是天一觀的道長(zhǎng)杨箭。 經(jīng)常有香客問(wèn)我,道長(zhǎng)储狭,這世上最難降的妖魔是什么互婿? 我笑而不...
    開(kāi)封第一講書人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任捣郊,我火速辦了婚禮,結(jié)果婚禮上慈参,老公的妹妹穿的比我還像新娘呛牲。我一直安慰自己,他們只是感情好驮配,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布侈净。 她就那樣靜靜地躺著,像睡著了一般僧凤。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上元扔,一...
    開(kāi)封第一講書人閱讀 48,954評(píng)論 1 283
  • 那天躯保,我揣著相機(jī)與錄音,去河邊找鬼澎语。 笑死途事,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的擅羞。 我是一名探鬼主播尸变,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼减俏!你這毒婦竟也來(lái)了召烂?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤娃承,失蹤者是張志新(化名)和其女友劉穎奏夫,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體历筝,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡酗昼,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了梳猪。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片麻削。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖春弥,靈堂內(nèi)的尸體忽然破棺而出餐抢,到底是詐尸還是另有隱情屋确,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站杉武,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏瓦堵。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一借帘、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧淌铐,春花似錦肺然、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至吐葱,卻和暖如春街望,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背弟跑。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工灾前, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人孟辑。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓哎甲,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親饲嗽。 傳聞我的和親對(duì)象是個(gè)殘疾皇子炭玫,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容