快速計算基因表達軟件:Salmon

我們常見的轉(zhuǎn)錄組表達分析一般都是將reads比對至參考基因組或者轉(zhuǎn)錄組上站超,然后在基因或者轉(zhuǎn)錄本水平上定量表達豐度艾船。

但最近在做小RNA分析時卻遇到了沒有參考基因組注釋文件(gtf/gff文件)的情況弟疆,而注釋文件的缺失則意味傳統(tǒng)的轉(zhuǎn)錄組定量分析是無法進行的籍嘹。那在缺少注釋文件的情況下栅组,該如何進行定量分析呢棕兼?在各種搜索后發(fā)現(xiàn)了一款無需mapping便可進行定量的軟件——Salmon宴猾。

一圆存、基本情況

Salmon軟件于2017年發(fā)表在Nature Methods,其題目為《Salmon provides fast and bias-aware quantification of transcript expression》

摘要

Salmon 提供2種運行模式仇哆,一是quasi-mapping直接讀取 reads 文件沦辙;二是讀取比對文件 sam/bam 進行mapping。

1讹剔、quasi-mapping-based mode的運行有兩階段:構(gòu)建索引和用戶想要定量的reads文件油讯。
2、alignment-based mode的運行則不需要構(gòu)建索引延欠,而是僅需提供一個轉(zhuǎn)錄本的 FASTA文件和用戶想要定量的 SAM/BAM 文件陌兑。

二、軟件使用:

1由捎、quasi-mapping-based mode

構(gòu)建索引:
salmon index -t transcripts.fa -i transcripts_index -k 31
參數(shù)說明:
-t:轉(zhuǎn)錄本的fasta文件

-i:輸出目錄

-k:K-mers诀紊,默認值為31
#如果你的reads大于75bp,那么k設(shè)置為31是較好的選擇,如果reads低于75可略微減少K值

名詞解釋:
簡單來說邻奠,k-mer是一段長度為k的序列笤喳,而后面的mer即為monomeric unit(單體單元),也就是每個堿基碌宴。因k-mer包含k個堿基杀狡,若一段核酸序列長度為L,以一個堿基為步長滑動贰镣,那么根據(jù)這個核酸序列就可以得到L-k+1個k-mer呜象;由于每個位點的堿基可以為(A、T碑隆、C恭陡、G)中的任意一個,因此k-mer理論上說有個不同的序列上煤。原本一條長片段休玩,就變成了很多短的片段,因此計算機處理的堿基數(shù)量也會增加很多倍劫狠。而且拴疤,每次取k-mer是同一條reads正反取兩次,這就是對這條reads的反向互補序列再取一次k-mer独泞。下面的圖就形象化了這一過程呐矾,長度為15的序列,選取k-mer為5懦砂,那么就會得到11(15-5+1=11)個5-mer蜒犯。

定量分析:
#雙端測序數(shù)據(jù)reads表達量的估計
salmon quant -i transcripts_index -l <LIBTYPE> -1 reads1.fq -2 reads2.fq -o transcripts_quant

#單端測序數(shù)據(jù)reads表達量的估計
salmon quant -i transcripts_index -l <LIBTYPE> -r reads.fq -o transcripts_quant
參數(shù)說明:
-1/2:雙端數(shù)據(jù)
-r:單端數(shù)據(jù)
-l:--libType,測序文庫類型荞膘,一般不知道什么文庫的話用參數(shù) A 讓軟件自動檢測
#I = inward
#O = outward
#M = matching
#S = stranded
#U = unstranded
#F = read 1 (or single-end read) comes from the forward strand
#R = read 1 (or single-end read) comes from the reverse strand
#A = automatically determine

2罚随、alignment-based mode

該模式下無需創(chuàng)建索引
salmon quant -t transcripts.fa -l <LIBTYPE> -a aln.bam -o salmon_quant

3、輸出文件
主要輸出文件為quant.sf衫画,該文件共有5列,分別是Name瓮栗,Length 削罩,EffectiveLength,TPM和NumReads费奸。

  • Name — target transcript 名稱弥激, 由輸入的 transcript database (FASTA file)所提供。
  • Length — target transcript 長度愿阐,即有多少個核苷酸
  • EffectiveLength — target transcript 計算的有效長度微服。此項考慮了所有被建模的因素,這將影響從這個轉(zhuǎn)錄本中取樣片段的概率缨历,包括片段長度分布和序列特異性和gc片段偏差(如果這些因素在建模時均被考慮的話)以蕴。 (It takes into account all factors being modeled that will effect the probability of sampling fragments from this transcript, including the fragment length distribution and sequence-specific and gc-fragment bias (if they are being modeled))糙麦。
  • TPM — 估計轉(zhuǎn)錄本的表達量。
  • NumReads — 估計比對到每個轉(zhuǎn)錄本的reads數(shù)丛肮。

其他輸出文件:
cmd_info.json: JSON格式文件赡磅,記錄salmon程序運行的命令和參數(shù)
lib_format_counts.json: Observed library format counts。當(dāng)運行salmon是 mapping-based mode時宝与,則會生成改文件焚廊。 JSON格式文件,記錄有關(guān)文庫格式和reads比對的情況习劫。
eq_classes.txt: Equivalence class file咆瘟。當(dāng)Salmon運行時,應(yīng)用參數(shù)--dumpEq诽里,則會生成此文件袒餐。
aux_info: 輔助文件夾,內(nèi)含多個文件
fld.gz:在輔助文件夾中须肆,該文件記錄的是觀察到的片段長度分布的近似值
obs5_seq.gz, obs3_seq.gz, exp5_seq.gz, exp5_seq.gz: Sequence-specific bias files
expected_gc.gz, observed_gc.gz: 當(dāng)Salmon運行時匿乃,應(yīng)用fragment-GC bias correction,在輔助文件夾中則會生成這兩個文件豌汇。記錄Fragment-GC bias幢炸。
meta_info.json: JSON格式文件,記錄salmon程序運行的統(tǒng)計信息
ambig_info.tsv: tab分隔符的文本文件拒贱,含有兩列宛徊。記錄的是每個轉(zhuǎn)錄本對應(yīng)的 the number of uniquely-mapping reads 和 the total number of ambiguously-mapping reads

三、補充

TPM:

Transcripts Per Kilobase of exonmodel per Million mapped reads (每千個堿基的轉(zhuǎn)錄每百萬映射讀取的Transcripts)逻澳,優(yōu)化的RPKM計算方法闸天,可以用于同一物種不同組織的比較。
TPM概括了基因的長度斜做、表達量和基因數(shù)目苞氮。TPM可以用于同一物種不同組織間的比較,因為sum值總是唯一的瓤逼。

計算公式:PMi=(Ni/Li)*1000000/sum(Ni/Li+……..+ Nm/Lm)
其中:Ni:mapping到基因i上的read數(shù)笼吟; Li:基因i的外顯子長度的總和

http://blog.sciencenet.cn/blog-1113671-1038659.html

參考:

https://www.bioinfo-scrounger.com/archives/411/
Salmon 進行轉(zhuǎn)錄本定量http://www.reibang.com/p/f62fd85113d3
tximport 將 Salmon 定量結(jié)果導(dǎo)入 DESeq2http://www.reibang.com/p/e0acb957b351
salmon分析RNA-seq實戰(zhàn)http://www.reibang.com/p/5ffbe89d3b6b

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市霸旗,隨后出現(xiàn)的幾起案子贷帮,更是在濱河造成了極大的恐慌,老刑警劉巖诱告,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件撵枢,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機锄禽,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進店門潜必,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人沟绪,你說我怎么就攤上這事刮便。” “怎么了绽慈?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵恨旱,是天一觀的道長。 經(jīng)常有香客問我坝疼,道長搜贤,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任钝凶,我火速辦了婚禮仪芒,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘耕陷。我一直安慰自己掂名,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布哟沫。 她就那樣靜靜地躺著饺蔑,像睡著了一般。 火紅的嫁衣襯著肌膚如雪嗜诀。 梳的紋絲不亂的頭發(fā)上猾警,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天,我揣著相機與錄音隆敢,去河邊找鬼发皿。 笑死,一個胖子當(dāng)著我的面吹牛拂蝎,可吹牛的內(nèi)容都是我干的穴墅。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼温自,長吁一口氣:“原來是場噩夢啊……” “哼玄货!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起捣作,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤誉结,失蹤者是張志新(化名)和其女友劉穎鹅士,沒想到半個月后券躁,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年也拜,在試婚紗的時候發(fā)現(xiàn)自己被綠了以舒。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡慢哈,死狀恐怖蔓钟,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情卵贱,我是刑警寧澤滥沫,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站键俱,受9級特大地震影響兰绣,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜编振,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一缀辩、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧踪央,春花似錦臀玄、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至魁莉,卻和暖如春睬涧,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背旗唁。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工畦浓, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人检疫。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓讶请,卻偏偏與公主長得像,于是被迫代替她去往敵國和親屎媳。 傳聞我的和親對象是個殘疾皇子夺溢,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容

  • 熊金波實驗室出品 整理歸納:Larry 本次學(xué)習(xí)使用的服務(wù)器IP地址和其用戶名賬戶密碼如下: 地址:gs0.gen...
    Larrylu007閱讀 27,317評論 10 106
  • Salmon應(yīng)用 查看幫助文檔 Quasi-mapping-based mode (including light...
    超級無敵大蝸牛閱讀 12,210評論 1 5
  • 目錄 背景知識1.1. 根據(jù)分析對象的分類1.2. 三個基本數(shù)據(jù)處理問題1.3. 一般分析流程1.4. 比較宏基因...
    UnderStorm閱讀 14,878評論 1 23
  • 久違的晴天,家長會烛谊。 家長大會開好到教室時风响,離放學(xué)已經(jīng)沒多少時間了。班主任說已經(jīng)安排了三個家長分享經(jīng)驗丹禀。 放學(xué)鈴聲...
    飄雪兒5閱讀 7,520評論 16 22
  • 今天感恩節(jié)哎状勤,感謝一直在我身邊的親朋好友鞋怀。感恩相遇!感恩不離不棄持搜。 中午開了第一次的黨會密似,身份的轉(zhuǎn)變要...
    迷月閃星情閱讀 10,562評論 0 11