【轉(zhuǎn)錄組學】如何進行一步到位的fastq到差異分析惕医,kallisto拯救你(一)

傳統(tǒng)轉(zhuǎn)錄組的分析想必大家已經(jīng)非常熟悉浮入,無非是質(zhì)控 -> 比對 -> 組裝 ->定量 -> 差異分析 -> 差異表達基因功能富集分析這個套路。目前公司用的流程主要也有兩個門派做粤,以“傳統(tǒng)派”的trimmomatic/cutadapter/華大fastqc -> tophat -> cufflink -> cuffmerge -> cuffquant(較差)/RSEM -> DESeq2/edgeR -> GO/KEGG巴元,已經(jīng)較新的 fastp -> hisat2 -> stringtie -> (ballgown,較差)/ (prepDE.py+edgeR,DEseq2) -> GO/KEGG。但是對于很多樣品來說我們不關(guān)注novel gene驮宴,isoform逮刨,也不關(guān)注可變剪切,是否有一套快速簡單的方法一步到位的到差異分析堵泽,快速定位關(guān)鍵基因呢修己?

目的

答案當然是有的,上面講的方法都是基于傳統(tǒng)方法進行的分析思路迎罗。但是實際上睬愤,我們很多時候往往只是為了找到實驗組和對照組的差異表達基因,以及這些基因和哪些通路有關(guān)纹安。這個時候我們完全沒有必要大費周章的對數(shù)據(jù)進行這一長串的分析尤辱。

流程

這里介紹一套輕量化的分析思路:fastp -> kallisto -> edgeR -> clusterProfiler
是的,你沒有看錯厢岂,所有的分析只需要這四個軟件光督。

kallisto介紹

我們這里介紹一下這個kallisto,他是整個分析的核心軟件塔粒。它是一個在2016年發(fā)表于Nature biotechnology《Near-optimal probabilistic RNA-seq quantification》的軟件结借。
該算法認為,將fq文件的reads比對到參考基因組的具體位置卒茬,然后根據(jù)位置信息進行計數(shù)數(shù)沒有實質(zhì)性意義的船老,而該算法采用的是偽比對的方式:即直接將fq文件的reads比對參考轉(zhuǎn)錄組上并且直接計數(shù)咖熟。


原理

實戰(zhàn)

1. 準備工作

1.1 下載參考基因組

由于這里選用的是人。kallisto的使用需要我們下載物種的mRNA序列柳畔,我們可以去到ensembl去下載wget http://ftp.ensembl.org/pub/current_fasta/homo_sapiens/cdna/Homo_sapiens.GRCh38.cdna.all.fa.gz
解壓文件gunzip Homo_sapiens.GRCh38.cdna.all.fa.gz

1.2 安裝軟件

這里默認你已經(jīng)安裝好了R包和conda
conda install kallisto fastp -c bioconda -c conda-forge

1.3 下載數(shù)據(jù)

這里使用GEO的一組m6A的Input數(shù)據(jù)為例子進行分析為例馍管,可以到https://www.ncbi.nlm.nih.gov/sra?linkname=bioproject_sra_all&from_uid=752384
進行下載。并自行搜索sra轉(zhuǎn)fastq的方法薪韩,這里推薦一下多線程pfastq-dump工具咽斧。
用這個數(shù)據(jù)的原因也是埋一個坑吧,有機會我們講一下MeRIP-seq以及和本次的RNA-seq進行關(guān)聯(lián)分析躬存。這里用到的樣本是NS1-3Input和HS1-3Input张惹,并把我們命名HS1_Input_1.fastq.gz,即樣本名編號_Input_測序方向.fastq.gz

1.4 建立索引

進入到我們剛下載好的文件目錄岭洲,使用命令
kallisto index -i hg38.idx Homo_sapiens.GRCh38.cdna.all.fa

2. 開始分析

2.1 準備配置信息

新建一個名為work.sh的腳本幫助我們串聯(lián)流程

#!/bin/bash
index="/Index/kallisto/hg38.idx" #這里輸入你的index實際路徑
rawdata="/Data/GEO/PRJNA752384" #這里輸入你的原始文件路徑
output="/Output" #這里輸入你的輸出路徑
cd $output #轉(zhuǎn)到你的輸出路徑

2.2 數(shù)據(jù)質(zhì)控

接下來我們就可以開始正式的分析宛逗,首先,使用fastp去接頭和去低質(zhì)量的堿基

mkdir cleandata
for i in $(ls $rawdata/*_1.fastq.gz) 
do
    R2=$(echo $(basename $i) | sed 's/_1/_2/g')
    sample=$(echo $(basename $i) | sed 's/_Input_1.fastq.gz//g')
    fastp -i $i -I $rawdata/$R2 -o cleandata/${sample}_1.fq.gz -O cleandata/${sample}_2.fq.gz -l 50 -q 20 -u 50 --detect_adapter_for_pe -w 8 -j cleandata/$sample.json -h cleandata/$sample.html
done

質(zhì)控完成后我們可以在cleandata目錄下看到每個質(zhì)控的html報告盾剩。

2.3 kallisto比對

for i in $(ls cleandata/*_1.fq.gz) 
do
    R2=$(echo $i | sed 's/_1/_2/g')
    sample=$(echo $(basename $i) | sed 's/_1.fq.gz//g')
    kallisto quant -i $index -o $output/quantity/$sample -t 8 -b 100 $i $R2
done

大約過程不到5分鐘每個樣本雷激,結(jié)束后我們看一下輸出的文件,其中我們最關(guān)心的就是定量文件就是abundance.tsv告私,文件結(jié)構(gòu)如下:

abundance.tsv

這里我們可以使用tpm去繪制一些熱圖之類的可視化分析屎暇,而其中還有一個estCount概念,他們定義如下:
est_count

即 count*(長度/有效長度)驻粟,由于DEseq2/edgeR推薦我們使用raw count所以最好在分析前進行一次轉(zhuǎn)換根悼。

本期我們就分享到這里,下一期我們會帶來后續(xù)的差異分析和GO/KEGG富集分析

想了解更多蜀撑?還不趕快關(guān)注我挤巡,以及我的公眾號生信咖啡嗎?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末酷麦,一起剝皮案震驚了整個濱河市矿卑,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌沃饶,老刑警劉巖母廷,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異糊肤,居然都是意外死亡琴昆,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門轩褐,熙熙樓的掌柜王于貴愁眉苦臉地迎上來椎咧,“玉大人玖详,你說我怎么就攤上這事把介∏诜恚” “怎么了?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵拗踢,是天一觀的道長脚牍。 經(jīng)常有香客問我,道長巢墅,這世上最難降的妖魔是什么诸狭? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮君纫,結(jié)果婚禮上驯遇,老公的妹妹穿的比我還像新娘。我一直安慰自己蓄髓,他們只是感情好叉庐,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著会喝,像睡著了一般陡叠。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上肢执,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天枉阵,我揣著相機與錄音,去河邊找鬼预茄。 笑死兴溜,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的耻陕。 我是一名探鬼主播昵慌,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼淮蜈!你這毒婦竟也來了斋攀?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤梧田,失蹤者是張志新(化名)和其女友劉穎淳蔼,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體裁眯,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡鹉梨,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了穿稳。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片存皂。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出旦袋,到底是詐尸還是另有隱情骤菠,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布疤孕,位于F島的核電站商乎,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏祭阀。R本人自食惡果不足惜鹉戚,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望专控。 院中可真熱鬧抹凳,春花似錦、人聲如沸伦腐。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蔗牡。三九已至颖系,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間辩越,已是汗流浹背嘁扼。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留黔攒,地道東北人趁啸。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像督惰,于是被迫代替她去往敵國和親不傅。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容