RNA-seq: Kallisto+Sleuth(1)

本文我們來(lái)簡(jiǎn)單介紹一下非逞芬疲快捷好用的一個(gè)RNAseq工具——Kallisto。Kallisto被我推薦的原因是其速度非常快玫膀,在我的Mac Pro就可以運(yùn)行使用,而且其結(jié)果也比較準(zhǔn)爹脾,使用起來(lái)還十分簡(jiǎn)單帖旨。

RNA-seq分析通常有以下幾種流程。
第一種是參考基因組灵妨,即先通過(guò)HISAR解阅、STAR等軟件把序列比對(duì)到參考基因組然后再進(jìn)行轉(zhuǎn)錄本鑒定及定量。根據(jù)有無(wú)GFF注釋可以分為兩種泌霍,如果沒(méi)有GFF注釋鑒定完之后再依據(jù)同源比對(duì)結(jié)果進(jìn)行功能注釋货抄。
第二種是今天要講的——參考轉(zhuǎn)錄組方法,直接將序列比對(duì)到轉(zhuǎn)錄組朱转,然后進(jìn)行轉(zhuǎn)錄本鑒定及定量蟹地。顯然,該方法的優(yōu)勢(shì)就是快捷藤为,而缺點(diǎn)也很明顯怪与,因?yàn)橹缓蛥⒖嫁D(zhuǎn)錄組進(jìn)行非剪接比對(duì)所以無(wú)法鑒定出新的轉(zhuǎn)錄本或者是新的非編碼RNA包括lncRNA等。
第三種是無(wú)參考基因組缅疟,有時(shí)候我們做的物種比較小眾分别,所以還沒(méi)有參考基因組遍愿,所以只能先利用De Bruijin的方法對(duì)序列進(jìn)行從頭拼接,然后再進(jìn)行比對(duì)耘斩、定量沼填,確定表達(dá)量。

常見(jiàn)RNA-seq分析流程

因此括授,根據(jù)你的數(shù)據(jù)特點(diǎn)和你的需求可以選擇合適的方法倾哺。實(shí)際上,很多實(shí)驗(yàn)室做RNA-seq可能暫時(shí)并不關(guān)注新的轉(zhuǎn)錄本刽脖,只想看一看不同條件下實(shí)驗(yàn)組和對(duì)照組有哪些基因的表達(dá)量發(fā)生了變化羞海,因此這時(shí)我們就可以選擇第二種方法,直接和轉(zhuǎn)錄組進(jìn)行非剪接比對(duì)曲管。今天我們就來(lái)講第二類方法中很優(yōu)秀的一個(gè)工具Kallisto却邓。

Kallisto于2016年發(fā)表在Nature biotechnology,截至目前引用次數(shù)超過(guò)1300次院水。

Kallisto

Kallisto的安裝

#如果你的電腦是mac可以用以下的方式進(jìn)行安裝
ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
brew install kallisto
#如果你已經(jīng)安裝了conda腊徙,可以用conda安裝:
conda install kallisto
#kallisto can also be installed on FreeBSD via the FreeBSD ports system using
pkg install kallisto
#**kallisto** binaries for Mac OS X, NetBSD, RHEL/CentOS and SmartOS can be installed on most POSIX platforms using pkgsrc:
pkgin install kallisto

安裝完成后,輸入kallisto:

Kallisto的使用

在正式開(kāi)始之前我們需要準(zhǔn)備以下數(shù)據(jù)
1檬某、目標(biāo)木中的參考轉(zhuǎn)錄組文件:cDNA文件
2撬腾、待分析的測(cè)序文件

本文我們以人的樣本為例下載相關(guān)的文件
準(zhǔn)備工作
cDNA文件的下載:hg19(GRCh37)/hg38(GRCh38)

GRCh38
GRCh37

根據(jù)你需要的版本進(jìn)行下載cDNA文件:
GRCh38:
ftp://ftp.ensembl.org/pub/release-96/fasta/homo_sapiens/cdna/
GRCh37:
ftp://ftp.ensembl.org/pub/grch37/current/fasta/homo_sapiens/cdna/

cDNA sequences for Ensembl or ab initio predicted genes,所以我們下載cdna.all.fa.gz的文件

這里恢恼,我下載的是GRCh37的版本民傻。

第一步建立索引
這里要注意一下參數(shù)-i并不是指輸入文件,此處的i代表index场斑,后面接的是你輸出的index名字漓踢。以后如果還是該物種,你可以直接使用本次建立的index漏隐,不用重復(fù)該步驟喧半。

kallisto index ./Homo_sapiens.GRCh37.75.cdna.all.fa.gz -i Homo_sapiens.GRCh37.75.cdna.all.index

第二步轉(zhuǎn)錄本的鑒定及定量

#雙端測(cè)序
kallisto quant -i ./Homo_sapiens.GRCh37.75.cdna.all.index -o ./Result -t 4 -b 100 PATH/Sample_R1.fq.gz PATH/Sample_R2.fq.gz 
#查看kallisto quant幫助
kallisto quant -h
Usage: kallisto quant [arguments] FASTQ-files

Required arguments:
-i, --index=STRING            Filename for the kallisto index to be used for
                              quantification
-o, --output-dir=STRING       Directory to write output to

Optional arguments:
    --bias                    Perform sequence based bias correction
-b, --bootstrap-samples=INT   Number of bootstrap samples (default: 0)
    --seed=INT                Seed for the bootstrap sampling (default: 42)
    --plaintext               Output plaintext instead of HDF5
    --fusion                  Search for fusions for Pizzly
    --single                  Quantify single-end reads
    --fr-stranded             Strand specific reads, first read forward
    --rf-stranded             Strand specific reads, first read reverse
-l, --fragment-length=DOUBLE  Estimated average fragment length
-s, --sd=DOUBLE               Estimated standard deviation of fragment length
                              (default: -l, -s values are estimated from paired
                               end data, but are required when using --single)
-t, --threads=INT             Number of threads to use (default: 1)
    --pseudobam               Output pseudoalignments in SAM format to stdout

如果是單端測(cè)序還需要給-l參數(shù),后面跟估計(jì)的平均片段長(zhǎng)度青责,-s參數(shù)后面跟估計(jì)的片段長(zhǎng)度標(biāo)準(zhǔn)差挺据。這兩個(gè)參數(shù)可以使用其他軟件如Agilent Bioanalyzer等確定。

#單端測(cè)序
kallisto quant -i index -o output --single -l length -s SD file.fq.gz

Kallisto的結(jié)果

然后就會(huì)生成三個(gè)文件:abundances.h5,abudances.tsv,run_info.json
abundance.h5
HDF5二進(jìn)制格式的文件脖隶,包含了運(yùn)行日志信息扁耐、表達(dá)豐度估計(jì)值、bootstrap估計(jì)和轉(zhuǎn)錄本長(zhǎng)度信息浩村。該文件可以直接用sleuth讀取處理做葵,也可以使用kallisto h5dump命令將其轉(zhuǎn)變?yōu)榧兾谋镜膖sv格式文件
abundance.tsv
包含有表頭的純本文tsv格式文件,表頭是:target_id, length, eff_length, est_counts, tpm
run_info.json
一個(gè)json格式的日志文件

然后我們可以看各個(gè)轉(zhuǎn)錄本的TPM即其表達(dá)量心墅。TPM具體的計(jì)算方式及其與RPKM酿矢、FPKM的差異可以看之前的日志RPM(CPM)/RPKM/FPKM/TPM

下一節(jié)我們將會(huì)講解如何用R包Sleuth對(duì)轉(zhuǎn)錄本進(jìn)行差異表達(dá)分析等。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末怎燥,一起剝皮案震驚了整個(gè)濱河市瘫筐,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌铐姚,老刑警劉巖策肝,帶你破解...
    沈念sama閱讀 219,490評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異隐绵,居然都是意外死亡之众,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門依许,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)棺禾,“玉大人,你說(shuō)我怎么就攤上這事峭跳”焐簦” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 165,830評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵蛀醉,是天一觀的道長(zhǎng)悬襟。 經(jīng)常有香客問(wèn)我,道長(zhǎng)拯刁,這世上最難降的妖魔是什么脊岳? 我笑而不...
    開(kāi)封第一講書人閱讀 58,957評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮垛玻,結(jié)果婚禮上逸绎,老公的妹妹穿的比我還像新娘。我一直安慰自己夭谤,他們只是感情好棺牧,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,974評(píng)論 6 393
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著朗儒,像睡著了一般颊乘。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上醉锄,一...
    開(kāi)封第一講書人閱讀 51,754評(píng)論 1 307
  • 那天乏悄,我揣著相機(jī)與錄音,去河邊找鬼恳不。 笑死檩小,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的烟勋。 我是一名探鬼主播规求,決...
    沈念sama閱讀 40,464評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼筐付,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了阻肿?” 一聲冷哼從身側(cè)響起瓦戚,我...
    開(kāi)封第一講書人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎丛塌,沒(méi)想到半個(gè)月后较解,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,847評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡赴邻,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,995評(píng)論 3 338
  • 正文 我和宋清朗相戀三年印衔,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片姥敛。...
    茶點(diǎn)故事閱讀 40,137評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡奸焙,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出徒溪,到底是詐尸還是另有隱情忿偷,我是刑警寧澤,帶...
    沈念sama閱讀 35,819評(píng)論 5 346
  • 正文 年R本政府宣布臊泌,位于F島的核電站鲤桥,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏渠概。R本人自食惡果不足惜茶凳,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,482評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望播揪。 院中可真熱鬧贮喧,春花似錦、人聲如沸猪狈。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 32,023評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)雇庙。三九已至谓形,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間疆前,已是汗流浹背寒跳。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,149評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留竹椒,地道東北人童太。 一個(gè)月前我還...
    沈念sama閱讀 48,409評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親书释。 傳聞我的和親對(duì)象是個(gè)殘疾皇子翘贮,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,086評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容