快速計算基因表達軟件：Salmon

我們常見的轉(zhuǎn)錄組表達分析一般都是將reads比對至參考基因組或者轉(zhuǎn)錄組上站超，然后在基因或者轉(zhuǎn)錄本水平上定量表達豐度艾船。

但最近在做小RNA分析時卻遇到了沒有參考基因組注釋文件（gtf/gff文件）的情況弟疆，而注釋文件的缺失則意味傳統(tǒng)的轉(zhuǎn)錄組定量分析是無法進行的籍嘹。那在缺少注釋文件的情況下栅组，該如何進行定量分析呢棕兼？在各種搜索后發(fā)現(xiàn)了一款無需mapping便可進行定量的軟件——Salmon宴猾。

一圆存、基本情況

Salmon軟件于2017年發(fā)表在Nature Methods，其題目為《Salmon provides fast and bias-aware quantification of transcript expression》

摘要

Salmon 提供2種運行模式仇哆，一是quasi-mapping直接讀取 reads 文件沦辙；二是讀取比對文件 sam/bam 進行mapping。

1讹剔、quasi-mapping-based mode的運行有兩階段：構(gòu)建索引和用戶想要定量的reads文件油讯。
2、alignment-based mode的運行則不需要構(gòu)建索引延欠，而是僅需提供一個轉(zhuǎn)錄本的 FASTA文件和用戶想要定量的 SAM/BAM 文件陌兑。

二、軟件使用：

1由捎、quasi-mapping-based mode

構(gòu)建索引：

salmon index -t transcripts.fa -i transcripts_index -k 31

參數(shù)說明：
-t：轉(zhuǎn)錄本的fasta文件

-i：輸出目錄

-k：K-mers诀紊，默認值為31
#如果你的reads大于75bp，那么k設(shè)置為31是較好的選擇，如果reads低于75可略微減少K值

名詞解釋：
簡單來說邻奠，k-mer是一段長度為k的序列笤喳，而后面的mer即為monomeric unit（單體單元），也就是每個堿基碌宴。因k-mer包含k個堿基杀狡，若一段核酸序列長度為L，以一個堿基為步長滑動贰镣，那么根據(jù)這個核酸序列就可以得到L-k+1個k-mer呜象；由于每個位點的堿基可以為（A、T碑隆、C恭陡、G）中的任意一個，因此k-mer理論上說有個不同的序列上煤。原本一條長片段休玩，就變成了很多短的片段，因此計算機處理的堿基數(shù)量也會增加很多倍劫狠。而且拴疤，每次取k-mer是同一條reads正反取兩次，這就是對這條reads的反向互補序列再取一次k-mer独泞。下面的圖就形象化了這一過程呐矾，長度為15的序列，選取k-mer為5懦砂，那么就會得到11（15-5+1=11）個5-mer蜒犯。

定量分析：

#雙端測序數(shù)據(jù)reads表達量的估計
salmon quant -i transcripts_index -l <LIBTYPE> -1 reads1.fq -2 reads2.fq -o transcripts_quant

#單端測序數(shù)據(jù)reads表達量的估計
salmon quant -i transcripts_index -l <LIBTYPE> -r reads.fq -o transcripts_quant

參數(shù)說明：
-1/2：雙端數(shù)據(jù)
-r：單端數(shù)據(jù)
-l：--libType，測序文庫類型荞膘，一般不知道什么文庫的話用參數(shù) A 讓軟件自動檢測
#I = inward
#O = outward
#M = matching
#S = stranded
#U = unstranded
#F = read 1 (or single-end read) comes from the forward strand
#R = read 1 (or single-end read) comes from the reverse strand
#A = automatically determine

2罚随、alignment-based mode

該模式下無需創(chuàng)建索引

salmon quant -t transcripts.fa -l <LIBTYPE> -a aln.bam -o salmon_quant

3、輸出文件
主要輸出文件為quant.sf衫画，該文件共有5列，分別是Name瓮栗，Length 削罩，EffectiveLength，TPM和NumReads费奸。

Name — target transcript 名稱弥激，由輸入的 transcript database (FASTA file)所提供。
Length — target transcript 長度愿阐，即有多少個核苷酸
EffectiveLength — target transcript 計算的有效長度微服。此項考慮了所有被建模的因素，這將影響從這個轉(zhuǎn)錄本中取樣片段的概率缨历，包括片段長度分布和序列特異性和gc片段偏差（如果這些因素在建模時均被考慮的話）以蕴。（It takes into account all factors being modeled that will effect the probability of sampling fragments from this transcript, including the fragment length distribution and sequence-specific and gc-fragment bias (if they are being modeled)）糙麦。
TPM — 估計轉(zhuǎn)錄本的表達量。
NumReads — 估計比對到每個轉(zhuǎn)錄本的reads數(shù)丛肮。

其他輸出文件：
cmd_info.json： JSON格式文件赡磅，記錄salmon程序運行的命令和參數(shù)
lib_format_counts.json： Observed library format counts。當(dāng)運行salmon是 mapping-based mode時宝与，則會生成改文件焚廊。 JSON格式文件，記錄有關(guān)文庫格式和reads比對的情況习劫。
eq_classes.txt： Equivalence class file咆瘟。當(dāng)Salmon運行時，應(yīng)用參數(shù)--dumpEq诽里，則會生成此文件袒餐。
aux_info：輔助文件夾，內(nèi)含多個文件
fld.gz：在輔助文件夾中须肆，該文件記錄的是觀察到的片段長度分布的近似值
obs5_seq.gz, obs3_seq.gz, exp5_seq.gz, exp5_seq.gz： Sequence-specific bias files
expected_gc.gz, observed_gc.gz：當(dāng)Salmon運行時匿乃，應(yīng)用fragment-GC bias correction，在輔助文件夾中則會生成這兩個文件豌汇。記錄Fragment-GC bias幢炸。
meta_info.json： JSON格式文件，記錄salmon程序運行的統(tǒng)計信息
ambig_info.tsv： tab分隔符的文本文件拒贱，含有兩列宛徊。記錄的是每個轉(zhuǎn)錄本對應(yīng)的 the number of uniquely-mapping reads 和 the total number of ambiguously-mapping reads

三、補充

TPM：

Transcripts Per Kilobase of exonmodel per Million mapped reads (每千個堿基的轉(zhuǎn)錄每百萬映射讀取的Transcripts)逻澳，優(yōu)化的RPKM計算方法闸天，可以用于同一物種不同組織的比較。
TPM概括了基因的長度斜做、表達量和基因數(shù)目苞氮。TPM可以用于同一物種不同組織間的比較，因為sum值總是唯一的瓤逼。

計算公式：PMi=(Ni/Li)*1000000/sum(Ni/Li+……..+ Nm/Lm)
其中：Ni：mapping到基因i上的read數(shù)笼吟； Li：基因i的外顯子長度的總和

http://blog.sciencenet.cn/blog-1113671-1038659.html

參考：

https://www.bioinfo-scrounger.com/archives/411/
Salmon 進行轉(zhuǎn)錄本定量http://www.reibang.com/p/f62fd85113d3
tximport 將 Salmon 定量結(jié)果導(dǎo)入 DESeq2http://www.reibang.com/p/e0acb957b351
salmon分析RNA-seq實戰(zhàn)http://www.reibang.com/p/5ffbe89d3b6b

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市霸旗，隨后出現(xiàn)的幾起案子贷帮，更是在濱河造成了極大的恐慌，老刑警劉巖诱告，帶你破解...
沈念sama閱讀 216,372評論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件撵枢，死亡現(xiàn)場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機锄禽，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門潜必，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人沟绪，你說我怎么就攤上這事刮便。” “怎么了绽慈？”我有些...
開封第一講書人閱讀 162,415評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵恨旱，是天一觀的道長。經(jīng)常有香客問我坝疼，道長搜贤，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,157評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任钝凶，我火速辦了婚禮仪芒，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘耕陷。我一直安慰自己掂名，他們只是感情好，可當(dāng)我...
茶點故事閱讀 67,171評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布哟沫。她就那樣靜靜地躺著饺蔑，像睡著了一般。火紅的嫁衣襯著肌膚如雪嗜诀。梳的紋絲不亂的頭發(fā)上猾警，一...
開封第一講書人閱讀 51,125評論 1贊 297
城市分裂傳說
那天，我揣著相機與錄音隆敢，去河邊找鬼发皿。笑死，一個胖子當(dāng)著我的面吹牛拂蝎，可吹牛的內(nèi)容都是我干的穴墅。我是一名探鬼主播，決...
沈念sama閱讀 40,028評論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼温自，長吁一口氣：“原來是場噩夢啊……” “哼玄货！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起捣作，我...
開封第一講書人閱讀 38,887評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤誉结，失蹤者是張志新（化名）和其女友劉穎鹅士，沒想到半個月后券躁，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,310評論 1贊 310
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,533評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年也拜，在試婚紗的時候發(fā)現(xiàn)自己被綠了以舒。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,690評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡慢哈，死狀恐怖蔓钟，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情卵贱，我是刑警寧澤滥沫，帶...
沈念sama閱讀 35,411評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站键俱，受9級特大地震影響兰绣，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜编振，卻給世界環(huán)境...
茶點故事閱讀 41,004評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一缀辩、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧踪央，春花似錦臀玄、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評論 0贊 22
一樁弒父案健无，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至魁莉，卻和暖如春睬涧，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背旗唁。一陣腳步聲響...
開封第一講書人閱讀 32,812評論 1贊 268
情欲美人皮
我被黑心中介騙來泰國打工畦浓，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人检疫。一個月前我還...
沈念sama閱讀 47,693評論 2贊 368
代替公主和親
正文我出身青樓讶请，卻偏偏與公主長得像，于是被迫代替她去往敵國和親屎媳。傳聞我的和親對象是個殘疾皇子夺溢，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,577評論 2贊 353