解析單細(xì)胞RNA-Seq Nature文章

這是我聽(tīng)孟浩巍知乎Live：生信進(jìn)階第1課-重復(fù)Nature文章和B站視頻：高通量測(cè)序技術(shù)交流錄像里的筆記哦~

單細(xì)胞RNA-Seq研究肺癌

目錄：

文章的主要結(jié)論解讀

傳統(tǒng)RNA-Seq建庫(kù)方法

幾種主要的單細(xì)胞RNA-Seq建庫(kù)方法

單細(xì)胞測(cè)序技術(shù)簡(jiǎn)介

單細(xì)胞RNA-Seq的分析流程

簡(jiǎn)單介紹主成分分析（PCA）

文章的主要結(jié)論解讀

Reconstructing lineage hierarchies of the distal lung epithelium using single-cell RNA-Seq
文章：用單細(xì)胞RNA-Seq的測(cè)序技術(shù)研究了肺部表皮發(fā)育相關(guān)的內(nèi)容

肺癌的分類

小細(xì)胞肺癌
非小細(xì)胞肺癌

其中非小細(xì)胞肺癌絕大部分是由環(huán)境因素和一些突變mutation造成的侮邀；小細(xì)胞肺癌大部分是由于自身的遺傳因素造成的，包括吸煙導(dǎo)致的肺癌都是非小細(xì)胞肺癌休玩。目前重點(diǎn)研究領(lǐng)域在非小細(xì)胞肺癌躏结。

文章的figure1一定會(huì)放它最主要最亮點(diǎn)的東西。
figure1a 拍了一張組織圖又畫了一張模式圖夸研，就是告訴我們邦蜜，肺泡在發(fā)育和分化過(guò)程中一共涉及到5種細(xì)胞：AT1、AT2亥至、BP悼沈、Clara、Ciliated姐扮。

figure1b 給了我們非常簡(jiǎn)單明了的解釋絮供，通過(guò)PCA的辦法用第一維主成分（PC1）和第三維主成分（PC3）可以把這五種單細(xì)胞完全分開(kāi)，這就說(shuō)明了從基因表達(dá)譜的水平上這五種細(xì)胞確實(shí)是有不同的茶敏，這就是這篇文章的核心了：用單細(xì)胞的RNA水平也就是轉(zhuǎn)錄本的表達(dá)水平來(lái)分離不同分化階段的細(xì)胞壤靶。

figure1

這篇文章的研究重點(diǎn)是：

AT1、AT2來(lái)源于BP細(xì)胞嗎惊搏？

這五種細(xì)胞在基因?qū)用婺芊穹值拈_(kāi)贮乳，它的分化水平和分化過(guò)程到底是什么？

在分化的過(guò)程中有沒(méi)有特定的gene marker恬惯？

figure2用headmap鑒定/聚類出每一種細(xì)胞有沒(méi)有特定的gene marker向拆，來(lái)仔細(xì)看下這張圖：
首先整體上看下這張圖的顏色，顏色是FPKM（基因表達(dá)量）取過(guò)log2之后的在0-15之間的數(shù)宿崭。每一行代表一個(gè)細(xì)胞的數(shù)據(jù)亲铡，每一列是一個(gè)基因的數(shù)據(jù)，這張圖大概由80多行葡兑，也就是它是一個(gè)80多個(gè)細(xì)胞的數(shù)據(jù)奖蔓，有100多列，也就是說(shuō)它從眾多眾多基因里面選出了100多個(gè)有代表性的基因來(lái)畫這張圖讹堤。

figure2

注意一下這張圖的小細(xì)節(jié)吆鹤，圖的左上角有Rep1、Rep2洲守、Rep3疑务，左邊也有它們的聚類沾凄，我們看下它最終聚類結(jié)果的顏色深淺（顏色深淺代表不同的Rep）分布比較均勻，這就是為了說(shuō)明這三次重復(fù)里相同的細(xì)胞聚類在了一起知允，而不是各個(gè)批次聚類到了一起撒蟀，說(shuō)明了樣本重復(fù)的時(shí)候不是因?yàn)榕卧斐傻恼`差，而是兩種細(xì)胞真的有差別温鸽。
再簡(jiǎn)單理解一下：Rep1保屯、Rep2、Rep3是混著去測(cè)的涤垫，每一次Rep都會(huì)側(cè)重測(cè)哪個(gè)細(xì)胞姑尺，但是每次Rep都會(huì)把所有的細(xì)胞都測(cè)了，通過(guò)行的聚類我們可以看到Rep1蝠猬、Rep2切蟋、Rep3沒(méi)有出現(xiàn)那種情況：Rep1全都聚在一起，Rep2全都聚在一起....而是混在了一起榆芦，這就說(shuō)明生物學(xué)重復(fù)不是導(dǎo)致它聚類的原因柄粹，細(xì)胞之間FPKM的不同才是聚類的關(guān)鍵所在。

下面張圖是在說(shuō)匆绣，這篇文章用同樣的辦法分析了另外一件事：BP細(xì)胞可以分化成 AT1 & AT2 這兩種細(xì)胞镰惦，同時(shí)展示了：這兩種細(xì)胞從什么時(shí)候開(kāi)始分化的、分化過(guò)程中每一個(gè)階段的gene和他的表達(dá)譜是怎么變化的犬绒？
看下這張圖的中下部分，1這一列代表了BP細(xì)胞的表達(dá)譜兑凿，左邊分別是1-->2-->3-->4 這是BP細(xì)胞表達(dá)譜逐漸發(fā)生變化的過(guò)程凯力，最后穩(wěn)定成AT1 late細(xì)胞。再向右看分別是 1-->5-->6礼华，這是它逐漸分化成AT2細(xì)胞的過(guò)程咐鹤，這就說(shuō)明了BP細(xì)胞在分化過(guò)程中存在基因表達(dá)調(diào)控的變化。

對(duì)比AT1 & AT2的分化過(guò)程圣絮，可以看到表達(dá)譜的顯著變化祈惶；從而可以推測(cè)每個(gè)時(shí)期的重要marker gene

這是一張非常復(fù)雜的圖首先我們先把這張圖的數(shù)據(jù)理清：
最左上角E14.5、E16.5扮匠、E18.5捧请、Adult在說(shuō)：對(duì)胚胎發(fā)育過(guò)程中的第14.5天、16.5天棒搜、18.5天疹蛉、21天和成熟期，分別進(jìn)行了single-cell 的 RNA-Seq力麸。右上角的圖例還是對(duì)FPKM取了log2可款，顏色亮的表示基因表達(dá)量高育韩，顏色暗代表基因表達(dá)量低。整張圖還是每行代表細(xì)胞闺鲸，每列代表基因筋讨，我們可以看到同種細(xì)胞之間聚到了一起，比如圖中：BP細(xì)胞和BP細(xì)胞聚到了一起摸恍，AT1和AT1聚到了一起悉罕，AT2和AT2聚到了一起，且BP正好落在AT1和AT2的中間误墓。這是一個(gè)非常非常難的一個(gè)聚類結(jié)果蛮粮，肯定調(diào)過(guò)參數(shù)的，為什么這么說(shuō)谜慌？

5種細(xì)胞的不同表達(dá)譜對(duì)應(yīng)了不同的marker genes

AT1和AT2這兩種細(xì)胞是源于BP細(xì)胞的然想，這兩種細(xì)胞分化而來(lái)的表達(dá)譜，肯定會(huì)篩選一些基因來(lái)做這張圖才能做出來(lái)BP在中間欣范、AT1在上面变泄、AT2在下面這種理想效果。不能說(shuō)人家是假的恼琼，只能說(shuō)它肯定篩選過(guò)特定的基因也調(diào)整過(guò)參數(shù)~
底下的部分是將細(xì)胞分成不同的時(shí)期（Ⅰ妨蛹、Ⅱ、Ⅲ晴竞、Ⅳ蛙卤、Ⅴ），其中包括：AT1的markers噩死、Ⅱa和Ⅱb颤难、Ⅲa和Ⅲb、Ⅳ已维、Ⅴa和Ⅴb這幾組不同的基因行嗤，然后對(duì)每一組基因進(jìn)行GO分析，基因分析的結(jié)果是底下的小字部分垛耳。

下面這張圖是violin plot栅屏，violin plot是box plot的補(bǔ)充√孟剩看圖：分化的不同階段EP-A --> EP-B --> Nascent --> AT1 --> BP --> Nascent --> AT2 --> Mature --> AT2這些是細(xì)胞的類型栈雳，橫向Ⅰ/Ⅱ / Ⅲa / Ⅲb / Ⅳ / Ⅴa / Ⅴb表示剛剛分出來(lái)的不同gene list，整體就是在說(shuō)在不同的gene list 里面基因的表達(dá)量是不一樣的泡嘴。有的gene list是隨著分化的進(jìn)行甫恩，表達(dá)量不斷降低，最典型的就是Ⅴb酌予；有的gene list 是隨著分化的進(jìn)行磺箕，表達(dá)量不斷上升奖慌，比如Ⅳ

5種細(xì)胞的不同表達(dá)譜總體表達(dá)分布的變化

文章結(jié)論：使用單細(xì)胞RNA-Seq測(cè)序技術(shù)將肺部分化發(fā)育的5種類型細(xì)胞按照其基因表達(dá)譜很好的分開(kāi)了，也提供了在分化表達(dá)時(shí)的gene marker松靡，也計(jì)算出來(lái)了一些在分化發(fā)育過(guò)程中每一個(gè)階段基因表達(dá)譜的變化简僧，也給出了分化過(guò)程中比較重要的gene list

文章用到的主要方法：

實(shí)驗(yàn)方面
單細(xì)胞RNA-Seq
生信方面
RNA-Seq數(shù)據(jù)分析
PCA分析
heatmap分析
GO分析
violin plat

傳統(tǒng)的RNA-Seq的建庫(kù)方法

分成兩種：PolyA positive 和 rRNA minus/negative

PolyA positive原理：成熟的mRNA里面一般都會(huì)有 5' 端的的帽子和3' 端的PolyA尾巴，我們直接對(duì)PolyA進(jìn)行富集雕欺，就可以通過(guò)PolyA的數(shù)量間接估算成熟的mRNA的基因表達(dá)量岛马，但像小RNA、mcRNA這些不成熟的RNA就被忽略了屠列。

rRNA minus建庫(kù)方法：在建庫(kù)過(guò)程中90%以上的RNA都是rRNA(核糖體RNA)啦逆，但我們不需要估算rRNA的表達(dá)量，所以需要把rRNA去掉笛洛，把剩下的RNA全部測(cè)序夏志，該方法的優(yōu)勢(shì)在于，它可以把除rRNA以外的所有基因表達(dá)量都估算到苛让，缺點(diǎn)在于它把很多不成熟的前體和中間體也估出來(lái)了沟蔑。

下圖是一個(gè)真核生物的模式圖，rRNA(核糖體RNA)在真核細(xì)胞里主要分布在內(nèi)質(zhì)網(wǎng)上和游離在胞漿中

真核生物的模式圖

核糖體在合成蛋白的過(guò)程中分為大小兩個(gè)亞基狱杰，在真核生物中大亞基和小亞基是呈分離狀態(tài)的瘦材，小亞基找到mRNA時(shí)大亞基就會(huì)隨之結(jié)合過(guò)來(lái)開(kāi)始合成蛋白，所以仿畸，在整個(gè)細(xì)胞的活動(dòng)中核糖體合成蛋白是一個(gè)特別重要的部分食棕，它所涉及到的大亞基和小亞基的組成部分在細(xì)胞里含量是最高的，這也就是為什么rRNA在細(xì)胞里面含量是最高的错沽。

核糖體合成蛋白的過(guò)程

這是一個(gè)細(xì)菌核糖體的結(jié)構(gòu)宣蠕，黃色的部分都是rRNA；藍(lán)色的部分是核糖體蛋白甥捺，在人體里，大概有80種核糖體蛋白镀层。我們可以看到核糖體的主要部分都是由rRNA組成的镰禾，真正的蛋白起穩(wěn)定結(jié)構(gòu)的作用，因此唱逢，我們可以說(shuō)核糖體是一個(gè)以rRNA為主題結(jié)構(gòu)的帶有催化活性的細(xì)胞器吴侦，所以有人認(rèn)為，核糖體是我們體內(nèi)最大的核酶坞古。

細(xì)菌核糖體的結(jié)構(gòu)

核糖體（rRNA）分為大亞基和小亞基备韧，在真核生物里面，大亞基是由 5.8S痪枫、5S 织堂、28S 這三種rRNA組成的叠艳；小亞基是由18S rRNA組成的。5.8S 5S 28S 18S 這四種rRNA的含量在我們細(xì)胞中占絕大多數(shù)易阳，它可以占到95%以上附较，甚至99%以上，因此我們?cè)谶M(jìn)行RNA-Seq的時(shí)候如果不剔除它潦俺，或者是篩選出帶有PolyA尾巴的成熟的mRNA拒课，直接去建庫(kù)的話，那建出來(lái)的庫(kù)有99%的序列都是rRNA序列事示，測(cè)序時(shí)就測(cè)不到mRNA早像。

核糖體rRNA里面的組成成分

這也就是為什么傳統(tǒng)的RNA-Seq的建庫(kù)流程分成兩種：PolyA positive 和 rRNA minus/negative

這兩種建庫(kù)方法的具體流程：

polyA positive 建庫(kù)方法

先看左上，成熟的mRNA都是帶有PolyA尾巴的肖爵，現(xiàn)在建庫(kù)流程非常成熟卢鹦，有方便的kit，但我們還是要了解建庫(kù)的一般流程：

1. 拿帶有 Oligo dT（帶一段T序列的磁珠）去富集帶有PolyA尾巴的成熟mRNA遏匆；
1. 將富集到的mRNA反轉(zhuǎn)錄成cDNA法挨；
1. 將反轉(zhuǎn)出來(lái)的cDNA打斷；
1. 末端加上接頭幅聘；
1. 加接頭后進(jìn)行PCR擴(kuò)增凡纳；
1. 擴(kuò)增結(jié)束后建庫(kù)就完成了。

polyA positive 建庫(kù)方法

此過(guò)程中重要的步驟是帝蒿，3—>4將cDNA打斷的過(guò)程荐糜。cDNA被打斷后會(huì)形成一個(gè)不整齊的末端，需要進(jìn)行末端補(bǔ)平葛超，補(bǔ)平末端之后會(huì)在末端加個(gè)A暴氏，變成黏性末端，有了黏性末端就可以加上測(cè)序引物绣张，測(cè)序引物是一個(gè)Y形的答渔，所以我們?cè)诟鞣N示例圖里面會(huì)看到一個(gè)Y形的adapter（接頭）。

rRNA minus建庫(kù)方法

rRNA minus建庫(kù)流程：

1. 提取出total RNA侥涵；
1. 用綁有rRNA特異序列的磁珠將特定的rRNA吸附下來(lái)沼撕，也就是先用特異性磁珠對(duì)total RNA里的rRNA進(jìn)行粗去除；
1. 將剩下的RNA打斷破碎芜飘；
1. 加adapter后將RNA序列轉(zhuǎn)成cDNA务豺；
1. 用RT 和 RNaseH 酶進(jìn)行消化，把沒(méi)有轉(zhuǎn)成cDNA的RNA消化掉嗦明，這時(shí)原來(lái)的RNA全部轉(zhuǎn)成了cDNA笼沥。
1. 之后和上面一樣用cDNA去做文庫(kù)的構(gòu)建：cDNA末端加接頭 —> PCR擴(kuò)增 —> 建庫(kù)完成。
  
  rRNA minus建庫(kù)流程

如何衡量建庫(kù)的第一步RNA提取的好壞？

提取出來(lái)的total RNA跑個(gè)電泳圖
電泳圖最左邊的lane是maker奔浅，其余的從左到右依次是從好到壞馆纳，最好的是左邊第二條lane，我們可以看到有三條特別明顯的條帶分別對(duì)應(yīng)的都是rRNA乘凸，在底部會(huì)有一些彌散厕诡。

total RNA提取的電泳圖

除了通過(guò)跑膠來(lái)判斷，還有一個(gè)total RNA提取的質(zhì)控標(biāo)準(zhǔn)RIN(RNA Integrity Number)
RIN這個(gè)參數(shù)非常重要
提取好的RNA的標(biāo)準(zhǔn)：至少能看到 5S/18S/28S的Region营勤，旁邊還能看到5.8S的小peak灵嫌。

total RNA提取的質(zhì)控標(biāo)準(zhǔn)RIN(RNA Integrity Number)

比較下圖中 RIN10 RIN6 RIN3 RIN2，RIN數(shù)值越大越好葛作。最完美的情況就是提取出來(lái)的RNA完全沒(méi)有講解那就是RIN為10的情況寿羞，我們可以看到RIN10那張圖5S/18S/28S 那三個(gè)峰非常明顯，在橫坐標(biāo)為29的位置那是一個(gè)5.8S的小peak赂蠢，這就是非常非常好的理想情況了绪穆。我們建庫(kù)一般是要求RIN7以上，嚴(yán)格要求是RIN7.5-8以上虱岂，才能進(jìn)行建庫(kù)玖院。

RNA Integrity Number

單細(xì)胞測(cè)序技術(shù)簡(jiǎn)介

我們?yōu)槭裁葱枰獑渭?xì)胞測(cè)序?

我們拿今天的文章來(lái)說(shuō)，同樣都是肺部的細(xì)胞第岖，肺泡細(xì)胞在形成過(guò)程中有上面介紹過(guò)的五種細(xì)胞：AT1难菌、AT2、BP蔑滓、Clara郊酒、Ciliated。這五種細(xì)胞都來(lái)源于肺键袱，但它們的表達(dá)譜真的不一樣燎窘，這就是單細(xì)胞存在的意義，它能夠告訴我們detail蹄咖。

Single-cell genome sequencing

看這里的小例子褐健，如圖，細(xì)胞里有四個(gè)基因：A澜汤、B铝量、C、D银亲。在1細(xì)胞里表達(dá)的有A、B纽匙、D务蝠；2細(xì)胞里表達(dá)的有A、B烛缔、C馏段；3細(xì)胞里表達(dá)的只有B轩拨。我們要是混在一起測(cè)就會(huì)發(fā)現(xiàn)ABCD都有表達(dá)，但事實(shí)并不是這樣子院喜，這就是單細(xì)胞存在的意義亡蓉。

單細(xì)胞 RNA-seq測(cè)序技術(shù)最常用的是Smart-seq2

Smart-seq2操作流程：

1.將單細(xì)胞裂解；
1. 用含有polyT的primer去富集含有polyA尾巴的RNA達(dá)到擴(kuò)增的目的喷舀；
1. 擴(kuò)增完成后得到RNA（波浪線）和DNA（直線）砍濒，DNA用特殊的酶處理一端加上3個(gè)C，另一端特殊的引物會(huì)加G硫麻，所以說(shuō)現(xiàn)在兩邊就有引物可以擴(kuò)增爸邢，擴(kuò)增完之后比較有意思的地方是，它不用再打斷了拿愧，里面利用了Tn5這種酶杠河，Tn5這種酶可以特殊的識(shí)別某四個(gè)堿基然后把a(bǔ)dapter直接加上去。所以用Tn5酶處理后的就會(huì)在序列上隨機(jī)的加上adapter浇辜，就不用再片段化再補(bǔ)平在加adapter了券敌，就一步到位了，加上adapter之后柳洋，后面就完全一樣了待诅。這就非常方便了，這個(gè)技術(shù)好就好在膳灶，不用加polyA了咱士，取而代之的是加了三個(gè)G后用Tn5酶處理直接加上建庫(kù)的引物，所以效率比之前的高很多轧钓。

單細(xì)胞RNA-seq的數(shù)據(jù)分析

單細(xì)胞RNA-seq的數(shù)據(jù)分析跟普通的RNA-seq分析流程是一樣的序厉，單細(xì)胞 RNA-seq做的好的標(biāo)準(zhǔn)就是跟原來(lái)的RNA-seq比較，如果數(shù)據(jù)分析方法特別特殊的話毕箍，那還有什么可比性弛房。所以主要的部分都一樣：質(zhì)量控制 —> 比對(duì)前的處理 —> 把序列回帖到參考基因組上 —> 算不同基因的表達(dá)量 —> 比較差異表達(dá) 或矯正不同的分布
總結(jié)起來(lái)還是四步：第一步，看數(shù)據(jù)質(zhì)量怎么樣而柑；第二步文捶，數(shù)據(jù)的前處理；第三步媒咳，比對(duì)粹排；第四步，計(jì)算表達(dá)量涩澡。
單細(xì)胞RNA-seq的數(shù)據(jù)分析流程：

1.raw data quality control
fastqc顽耳；cutadapt；fastx_trimmer
2.mapping to the genome
tophat2；STAR射富；hisat/hisat2
3.remove the duplication
picard
4.calculate FPKM
cufflinks
5.find different expression genes
cuffdiff

這里需要強(qiáng)調(diào)一下膝迎，在一般的RNA-Seq分析過(guò)程中是不需要去重的remove the duplication，但是對(duì)于單細(xì)胞轉(zhuǎn)錄組single-cell RNA-Seq來(lái)說(shuō)需要去重remove the duplication胰耗。

在正式進(jìn)行數(shù)據(jù)分析之前限次，首先需要把數(shù)據(jù)下載到服務(wù)器

0.數(shù)據(jù)下載

文章里作者會(huì)寫著把數(shù)據(jù)上傳到哪個(gè)數(shù)據(jù)庫(kù)了，一般都是NCBI里的GEO數(shù)據(jù)庫(kù)柴灯，根據(jù)作者給的GEO號(hào)我們直接去數(shù)據(jù)庫(kù)里下載就好卖漫。
這里只是舉個(gè)例子，演示一下如何下載數(shù)據(jù)弛槐，不是真實(shí)的文章數(shù)據(jù)

不管通過(guò)什么辦法吧懊亡，我們得到下載鏈接，去Linux命令行里用wget下載到服務(wù)器上乎串。
下載完之后是.sra文件

SRA文件是一個(gè)壓縮的二進(jìn)制文件店枣，我們需要轉(zhuǎn)換一下文件格式。這就用到NCBI推出的sra-tools工具叹誉。安裝好之后鸯两，使用fastq-dump解壓SRA文件
我們需要根據(jù)實(shí)驗(yàn)內(nèi)容選擇具體的參數(shù)，比如长豁，是雙端測(cè)序測(cè)序的話钧唐，我們需要把一個(gè)文件壓縮成兩個(gè)雙端，分別保存5'端的reads和3'端的reads：

fastq-dump -I --gzip --split-files SRR5315196.sra

解釋參數(shù)：

-I 給reads增加一個(gè)編號(hào)
--gzip 解壓出來(lái)的fastq文件再壓縮一下變成SRR5315196.fastq.gz 匠襟，后面所有的處理都可以以gzip格式為標(biāo)準(zhǔn)輸入钝侠，這樣可以減少很多空間
--split-files SRA文件把雙端測(cè)序壓縮到一個(gè)文件里了，所以我們需要把它雙端的數(shù)據(jù)解壓成不同的文件里酸舍，split-files 分文件嘛~

1.raw data quality control

單細(xì)胞RNA_Seq的數(shù)據(jù)質(zhì)量不會(huì)太好帅韧，我們做一個(gè)質(zhì)控fastqc看看數(shù)據(jù)情況：

fastqc -t 10 -o ./ -q SRR5315196.fastq.gz

參數(shù)解釋：

-t 調(diào)用10個(gè)核
-o 輸出文件放到哪里
-q 沉默模式，只管運(yùn)行就好別說(shuō)話

fastqc報(bào)告

橫坐標(biāo)1-101bp就是它測(cè)序長(zhǎng)度啃勉，縱軸就是測(cè)序質(zhì)量忽舟，數(shù)值越高越好，20就代表1%的錯(cuò)誤率淮阐。從圖中我們可以看到67以后測(cè)序錯(cuò)誤率非常的大叮阅，對(duì)于這樣的數(shù)據(jù)需要做很多trim修整：1.先去測(cè)序接頭 2.去trim，保證trim的長(zhǎng)度是一致的比如我們這里可以trim到60或70泣特，為什么需要這樣呢浩姥？因?yàn)镽NA-Seq不只要做表達(dá)量的分析，做表達(dá)量分析reads的長(zhǎng)短是無(wú)所謂的状您，我們還要做可變剪切的分析勒叠，現(xiàn)在絕大多數(shù)的可變剪切數(shù)量都需要reads的長(zhǎng)度是一樣長(zhǎng)的镀裤，所以我們保留reads的時(shí)候要序列長(zhǎng)度一樣，比如都是70bp 或都是75bp

1.1數(shù)據(jù)前處理—cutadapt去接頭

去接頭

for case_name in SRR1033853 
do
    fastq_1=./raw.fastq/${case_name}_1.fastq.gz
    fastq_2=./raw.fastq/${case_name}_2.fastq.gz
    log_file=./raw.fastq/${case_name}_cutadapt.log
    out_fastq_1=./raw.fastq/${case_name}_1_cutadapt.fastq.gz
    out_fastq_2=./raw.fastq/${case_name}_2_cutadapt.fastq.gz
    nohup cutadapt  --times 1  -e 0.1  -O 3  --quality-cutoff 6  -m 75 -a AGATCGGAAGAGC -A AGATCGGAAGAGC  -o $out_fastq_1 -p $out_fastq_2 $fastq_1 $fastq_2 > $log_file 2>&1 &
done

主要參數(shù)解釋：

--times 1 -e 0.1都是trim的基本參數(shù)不用太考慮缴饭；
-O 3 當(dāng)有3bp的adapt序列和我的reads能overlap上才去trim；
-m 75 當(dāng)有一條序列低于75的時(shí)候這一對(duì)reads都不要了骆莹；
-a -A分別對(duì)reads1去3'端的adapter和reads2去5'端的adapter颗搂；
-o 是輸出的內(nèi)容；
-p 是輸入的內(nèi)容

最后把所有的log文件保存到log_file里面幕垦。

1.2數(shù)據(jù)前處理—去trim

下面就是在做我們前面提到的丢氢，去trim，保證trim的長(zhǎng)度是一致先改，都取6-75bp的部分疚察。

去trim

for case_name in SRR1033853
do
    fastq_1=./raw.fastq/${case_name}_1_cutadapt.fastq.gz
    fastq_2=./raw.fastq/${case_name}_2_cutadapt.fastq.gz
    out_fastq_1=./raw.fastq/${case_name}_R1_trim.fq.gz
    out_fastq_2=./raw.fastq/${case_name}_R2_trim.fq.gz

    zcat $fastq_1 | fastx_trimmer -f 6 -l 75 -z -o $out_fastq_1 & 
    zcat $fastq_2 | fastx_trimmer -f 6 -l 75 -z -o $out_fastq_2 & 
done

-z參數(shù)的意思是輸出文件也要用gzip壓縮

2. mapping to the genome

使用tophat2把序列回帖到參考基因組上

tophat2比對(duì)

mm10_index=/home/menghw/reference/mm10_fasta/mm10_genoem_bt2

for case_name in SRR1033853
do
    fastq_1=./raw.fastq/${case_name}_R1_trim.fq.gz
    fastq_2=./raw.fastq/${case_name}_R2_trim.fq.gz

    output_dir=./${case_name}_tophat_result
    log=./${case_name}_tophat_result/${case_name}_tophat.log

    mkdir -p $output_dir

    nohup tophat2 -p 32 -o $output_dir $mm10_index $fastq_1 $fastq_2 > $log 2>&1 &
done

-p 32：調(diào)用了32個(gè)核在跑

3. remove the duplication

在一般的RNA-Seq分析過(guò)程中是不需要去重的remove the duplication，但是對(duì)于單細(xì)胞轉(zhuǎn)錄組single-cell RNA-Seq來(lái)說(shuō)需要去重remove the duplication仇奶。

mm10_index=/home/menghw/reference/mm10_fasta/mm9_genoem_bt2

for case_name in SRR1033853
do
    input_bam=./${case_name}_tophat_result/accepted_hits.bam
    out_bam=./${case_name}_tophat_result/accepted_hits_rmdup.bam
    matrix_file=./${case_name}_tophat_result/accepted_hits_rmdup.matrix
    log_file=./${case_name}_tophat_result/accepted_hits_rmdup.log

    nohup java -Xms16g -Xmx32g -XX:ParallelGCThreads=32 -jar /home/menghw/my_software/picard/picard.jar MarkDuplicates  INPUT=$input_bam  OUTPUT=$out_bam METRICS_FILE=$matrix_file  ASSUME_SORTED=true REMOVE_DUPLICATES=true > $log_file 2>&1 &
done

使用picard程序remove the duplication時(shí)貌嫡，需要調(diào)用Java資源：

-Xms16g -Xmx32g最小調(diào)用16G最大調(diào)用32G內(nèi)存
-XX:ParallelGCThreads=3232個(gè)核在進(jìn)行運(yùn)算
-jar 后面指定picard.jar程序路徑
METRICS_FILE=$matrix_file 這部分沒(méi)有任何用，給它一個(gè)文件名就好

4. calculate FPKM

GTF/gtf文件是基因的注釋文件该溯，告訴我們基因在基因組上的位置

mm10_gtf=/home/menghw/reference/mm10_fasta/mm10_RefSeq.fix.gtf

for case_name in SRR1033853
do
    cufflink_dir=./${case_name}_cufflink_result/
    log=./${case_name}_cufflink_result/cufflink.log
    bam_file=./${case_name}_tophat_result/accepted_hits_rmdup.bam

    mkdir -p $cufflink_dir
    nohup cufflinks -o $cufflink_dir -p 16 -G $mm10_gtf $bam_file > $log 2>&1 &
done

cufflink：是用來(lái)計(jì)算FPKM的軟件
-o：后面指定輸出文件位置
-p 16：調(diào)用16個(gè)核
-G：后跟下載好的基因注釋文件GTF
$bam_file：命令cufflinks的作用對(duì)象是比對(duì)的結(jié)果文件—bam文件

4.1 下載GTF文件

GTF文件里記錄著是哪個(gè)基因來(lái)自于那條染色體以及起始坐標(biāo)岛抄，基因名是什么gene_id，轉(zhuǎn)錄本的名字是什么transcript_id狈茉，基因別名是什么gene_name夫椭。
一般gene_id是官方命名，transcript_id是轉(zhuǎn)錄組的名字一個(gè)基因可以對(duì)應(yīng)多個(gè)轉(zhuǎn)錄本氯庆。

去UCSC官網(wǎng)：Tools--->Table Browser里下載

下載GTF文件

主成分分析—PCA

Principal Component Analysis（PCA）：簡(jiǎn)單來(lái)說(shuō)蹭秋，就是在尋找變量中最能代表這組數(shù)據(jù)的變量；用少數(shù)幾個(gè)變量的線性變化來(lái)代表原始數(shù)據(jù)堤撵，從而達(dá)到數(shù)據(jù)降維的目的仁讨。

主成分分析基本思想應(yīng)用
比如：描述兒童生長(zhǎng)發(fā)育的指標(biāo)中，身高粒督、腿長(zhǎng)和臂長(zhǎng)這3 個(gè)指標(biāo)可能是相關(guān)的陪竿，而胸圍、大腿圍和臂圍這3個(gè)圍度指標(biāo)也會(huì)有一定的相關(guān)性屠橄。如果分別用每一個(gè)指標(biāo)對(duì)兒童的生長(zhǎng)發(fā)育做出評(píng)價(jià)族跛，那么這種評(píng)價(jià)就是孤立的、片面的锐墙，而不是綜合的礁哄。僅選用幾個(gè)"重要的"或"有代表性"的指標(biāo)來(lái)評(píng)價(jià)，就可能失去許多有用的信息溪北，容易得出片面的結(jié)論桐绒。我們需要一種綜合性的分析方法夺脾，既可減少指標(biāo)變量個(gè)數(shù)，又盡量不損失原指標(biāo)變量所包含的信息茉继，對(duì)資料進(jìn)行綜合分析咧叭。

再比如：學(xué)生的各科成績(jī)?nèi)缦拢?br>

我們發(fā)現(xiàn)，數(shù)學(xué)科目的成績(jī)是影響總成績(jī)最重要的因素烁竭，因?yàn)槠渌颇砍煽?jī)差別不?菲茬；因此數(shù)學(xué)科目的成績(jī)就是我們這組數(shù)據(jù)的主成分。當(dāng)變量少的時(shí)候我們可以一眼看出哪個(gè)是主成分派撕，但是婉弹，當(dāng)變量非常多的時(shí)候，我們不能直接“看”出主成分终吼，因此需要用數(shù)學(xué)的方法進(jìn)行計(jì)算镀赌。

主成分分析數(shù)學(xué)實(shí)質(zhì)

我們的點(diǎn)是三維空間上的一個(gè)點(diǎn)，也就是說(shuō)每一個(gè)變量是由三個(gè)子變量形成的际跪，PCA的目的就是找到一個(gè)平面商佛，將這些點(diǎn)投影到平面上，在該平面上的點(diǎn)必須能夠確定正交的兩個(gè)向量垫卤，通過(guò)這種方法就可以把三維空間上的點(diǎn)放在二維平面上研究威彰，避免了研究高維問(wèn)題。

最后編輯于：2019.07.05 09:25:14

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末穴肘，一起剝皮案震驚了整個(gè)濱河市歇盼，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌评抚，老刑警劉巖豹缀，帶你破解...
沈念sama閱讀 206,013評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異慨代，居然都是意外死亡邢笙，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門侍匙，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)氮惯，“玉大人，你說(shuō)我怎么就攤上這事想暗「竞梗” “怎么了？”我有些...
開(kāi)封第一講書人閱讀 152,370評(píng)論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵说莫，是天一觀的道長(zhǎng)杨箭。經(jīng)常有香客問(wèn)我，道長(zhǎng)储狭，這世上最難降的妖魔是什么互婿？我笑而不...
開(kāi)封第一講書人閱讀 55,168評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任捣郊，我火速辦了婚禮，結(jié)果婚禮上慈参，老公的妹妹穿的比我還像新娘呛牲。我一直安慰自己，他們只是感情好驮配，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布侈净。她就那樣靜靜地躺著，像睡著了一般僧凤。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上元扔，一...
開(kāi)封第一講書人閱讀 48,954評(píng)論 1贊 283
城市分裂傳說(shuō)
那天躯保，我揣著相機(jī)與錄音，去河邊找鬼澎语。笑死途事，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的擅羞。我是一名探鬼主播尸变，決...
沈念sama閱讀 38,271評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼减俏！你這毒婦竟也來(lái)了召烂？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書人閱讀 36,916評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤娃承，失蹤者是張志新（化名）和其女友劉穎奏夫，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體历筝，經(jīng)...
沈念sama閱讀 43,382評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡酗昼，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了梳猪。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片麻削。...
茶點(diǎn)故事閱讀 37,989評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖春弥，靈堂內(nèi)的尸體忽然破棺而出餐抢，到底是詐尸還是另有隱情屋确，我是刑警寧澤，帶...
沈念sama閱讀 33,624評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站杉武，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏瓦堵。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一借帘、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧淌铐，春花似錦肺然、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 30,199評(píng)論 0贊 19
一樁弒父案际起，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至吐葱，卻和暖如春街望，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背弟跑。一陣腳步聲響...
開(kāi)封第一講書人閱讀 31,418評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工灾前，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人孟辑。一個(gè)月前我還...
沈念sama閱讀 45,401評(píng)論 2贊 352
代替公主和親
正文我出身青樓哎甲，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親饲嗽。傳聞我的和親對(duì)象是個(gè)殘疾皇子炭玫，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評(píng)論 2贊 345

解析單細(xì)胞RNA-Seq Nature文章

文章的主要結(jié)論解讀

傳統(tǒng)的RNA-Seq的建庫(kù)方法

polyA positive 建庫(kù)方法

rRNA minus建庫(kù)方法

如何衡量建庫(kù)的第一步RNA提取的好壞？

單細(xì)胞測(cè)序技術(shù)簡(jiǎn)介

單細(xì)胞 RNA-seq測(cè)序技術(shù)最常用的是Smart-seq2

單細(xì)胞RNA-seq的數(shù)據(jù)分析

0.數(shù)據(jù)下載

1.raw data quality control

1.1數(shù)據(jù)前處理—cutadapt去接頭

1.2數(shù)據(jù)前處理—去trim

2. mapping to the genome

3. remove the duplication

4. calculate FPKM

4.1 下載GTF文件

主成分分析—PCA

推薦閱讀更多精彩內(nèi)容