rnanorm | 一行命令搞定RNA-seq標(biāo)準(zhǔn)化

日常瞎掰

??目前侧啼，普通RNA-seq測(cè)序已經(jīng)成為科研中一件非常稀松平常的事牛柒，這也是得益于其物美價(jià)廉的基礎(chǔ)。雖然已經(jīng)有不少成熟的RNA-seq分析流程存在痊乾，但并沒(méi)有形成一個(gè)統(tǒng)一的標(biāo)準(zhǔn)答案皮壁。畢竟，條條大路通羅馬哪审，走哪一條都可以得到想要的結(jié)果蛾魄，這也無(wú)傷大雅。就拿我們今天要說(shuō)的RNA-seq的標(biāo)準(zhǔn)化方法來(lái)說(shuō)就不止一種湿滓，可供選擇的方式就有CPM滴须、TPM、FPKM三種叽奥。當(dāng)然扔水，今天我們并不是要討論哪一種方式更好，而是想跟大家分享一個(gè)好用的工具來(lái)快速進(jìn)行標(biāo)準(zhǔn)化朝氓。rnanorm是一個(gè)基于python開(kāi)發(fā)的命令行工具魔市，可以很方便地來(lái)做以上三種方式的標(biāo)準(zhǔn)化操作。

安裝

??python包的安裝方式赵哲，很簡(jiǎn)單嘹狞，一行命令即可實(shí)現(xiàn)：

pip install rnanorm

使用

正常情況
??正常情況下，表達(dá)矩陣?yán)锩娴幕蛎ǔＪ褂肎TF里面的symobol誓竿、ensembl 原始ID命名磅网，這樣最方便的方式就是我們給軟件兩個(gè)參數(shù)：原始矩陣和GTF文件即可：

head readcount.txt 
FEATURE_ID        sampleA1  sampleA2  sampleA3  sampleB1  sampleB2  sampleB3
ENSMUSG00000000001.1      4248    6254    3409    7387    8099    3804
ENSMUSG00000000003.15      0       0       5       0       0       0
ENSMUSG00000000028.15      2239    3068    1801    2581    3081    1466
ENSMUSG00000000031.16      0       0       0       3       0       0
ENSMUSG00000000037.17      57      67      79      1       2       0
ENSMUSG00000000049.11      0       0       0       0       6       0

rnanorm readcount.txt --annotation gencode.vM25.annotation.gtf --gene-id-attr gene_id --tpm-output sample.tpm.txt

??示例指定的是TPM方式，如果想要CPM筷屡、FPKM的結(jié)果可以分別使用參數(shù)--cpm-output涧偷、--fpkm-output來(lái)指定簸喂。這三個(gè)參數(shù)并不沖突，可以同時(shí)指定燎潮，得到三種標(biāo)準(zhǔn)化結(jié)果喻鳄。

其他情況
??有些時(shí)候，我們拿到的矩陣?yán)锩婊虻拿Q(chēng)可能不是原始的ID确封，如下面所示除呵，雖然知道使用的是ensembl，但并不是GTF里面原始的ID爪喘。因?yàn)槿コ薎D點(diǎn)后面的后綴颜曾，所以即使提供了GTF文件，軟件也是沒(méi)法完成矩陣標(biāo)準(zhǔn)化秉剑。
??TPM泛豪、FPKM標(biāo)準(zhǔn)化的操作，除了矩陣以外侦鹏，其實(shí)另外還需要每個(gè)基因的長(zhǎng)度信息诡曙，提供GTF文件就是為了獲取這個(gè)信息。對(duì)于提供基因長(zhǎng)度略水，也可以使用軟件--gene-lengths來(lái)提供价卤。像下面這樣基因ID與GTF中不完全一致的情況，要么把矩陣?yán)锩婊騃D轉(zhuǎn)化成與GTF一致后再用上面的命令做標(biāo)準(zhǔn)化渊涝，要么提供一個(gè)基因長(zhǎng)度的兩列表格使用下面的命令來(lái)標(biāo)準(zhǔn)化荠雕。

head readcount.txt 
FEATURE_ID        sampleA1  sampleA2  sampleA3  sampleB1  sampleB2  sampleB3
ENSMUSG00000000001     4248    6254    3409    7387    8099    3804
ENSMUSG00000000003      0       0       5       0       0       0
ENSMUSG00000000028      2239    3068    1801    2581    3081    1466
ENSMUSG00000000031      0       0       0       3       0       0
ENSMUSG00000000037      57      67      79      1       2       0
ENSMUSG00000000049      0       0       0       0       6       0

awk -F '[\t"]' -v OFS="\t" 'BEGIN{print"FEATURE_ID","GENE_LENGTHS"}/^chr/&&$3=="gene"{len=$5-$4+1;print substr($10,1,18),len}' gencode.vM25.annotation.gtf >mm10.genelen.vM25.txt
head mm10.genelen.vM25.txt
FEATURE_ID      GENE_LENGTHS
ENSMUSG00000102693      1070
ENSMUSG00000064842      110
ENSMUSG00000051951      465598
ENSMUSG00000102851      480
ENSMUSG00000103377      2819
ENSMUSG00000104017      2233

rnanorm readcount.txt --gene-lengths=mm10.genelen.vM25.txt --tpm-output=readcount.tpm.txt

??如果想要的標(biāo)準(zhǔn)化方式是CPM，可以忽略--annotation或者--gene-lengths參數(shù)驶赏，直接提供原始矩陣即可。

結(jié)束語(yǔ)

??從上面的示例可以看出使用rnanorm做標(biāo)準(zhǔn)化還是很方便的既鞠，不過(guò)有一些注意事項(xiàng)還是需要指出的：表達(dá)矩陣的基因那一列的列名必須為FEATURE_ID煤傍；提供GTF文件時(shí)，需要使用--gene-id-attr參數(shù)來(lái)指定基因ID的屬性名嘱蛋，如示例矩陣中基因名為ensembl蚯姆，則其在GTF中對(duì)應(yīng)的ID屬性為gene_id，如果是symbol的話(huà)就要換成gene_name洒敏；提供基因長(zhǎng)度文件時(shí)龄恋，兩個(gè)列名需為FEATURE_ID、GENE_LENGTHS凶伙。當(dāng)然郭毕，CPM、TPM函荣、FPKM標(biāo)準(zhǔn)化并不難显押，知道了方法自己完全可以寫(xiě)個(gè)函數(shù)來(lái)計(jì)算扳肛，但既然有了現(xiàn)成好用的工具，直接使用豈不是更省事省力乘碑！為軟件作者口頭點(diǎn)個(gè)贊挖息！

往期回顧

rGREAT | 基因組區(qū)間功能富集
 利用UCSC預(yù)測(cè)啟動(dòng)子序列可能結(jié)合的轉(zhuǎn)錄因子
 Vision | scRNA細(xì)胞相似性 + 差異signature
HiC | contacts vs distance
hdWGCNA | 單細(xì)胞數(shù)據(jù)共表達(dá)網(wǎng)絡(luò)分析

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市兽肤，隨后出現(xiàn)的幾起案子套腹，更是在濱河造成了極大的恐慌，老刑警劉巖资铡，帶你破解...
沈念sama閱讀 222,104評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件电禀，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡害驹，警方通過(guò)查閱死者的電腦和手機(jī)鞭呕，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,816評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)宛官，“玉大人葫松，你說(shuō)我怎么就攤上這事〉紫矗” “怎么了腋么？”我有些...
開(kāi)封第一講書(shū)人閱讀 168,697評(píng)論 0贊 360
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)亥揖。經(jīng)常有香客問(wèn)我珊擂，道長(zhǎng)，這世上最難降的妖魔是什么费变？我笑而不...
開(kāi)封第一講書(shū)人閱讀 59,836評(píng)論 1贊 298
?港島之戀（遺憾婚禮）
正文為了忘掉前任摧扇，我火速辦了婚禮，結(jié)果婚禮上挚歧，老公的妹妹穿的比我還像新娘扛稽。我一直安慰自己，他們只是感情好滑负，可當(dāng)我...
茶點(diǎn)故事閱讀 68,851評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布在张。她就那樣靜靜地躺著，像睡著了一般矮慕。火紅的嫁衣襯著肌膚如雪帮匾。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 52,441評(píng)論 1贊 310
城市分裂傳說(shuō)
那天痴鳄，我揣著相機(jī)與錄音瘟斜，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛哼转，可吹牛的內(nèi)容都是我干的明未。我是一名探鬼主播，決...
沈念sama閱讀 40,992評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼壹蔓，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼趟妥！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起佣蓉，我...
開(kāi)封第一講書(shū)人閱讀 39,899評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤披摄，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后勇凭，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體疚膊，經(jīng)...
沈念sama閱讀 46,457評(píng)論 1贊 318
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,529評(píng)論 3贊 341
?白月光啟示錄
正文我和宋清朗相戀三年虾标，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了寓盗。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,664評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡璧函，死狀恐怖傀蚌，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情蘸吓，我是刑警寧澤善炫，帶...
沈念sama閱讀 36,346評(píng)論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站库继，受9級(jí)特大地震影響箩艺，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜宪萄，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,025評(píng)論 3贊 334
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一艺谆、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧拜英，春花似錦静汤、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 32,511評(píng)論 0贊 24
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)恢暖。三九已至排监，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間杰捂，已是汗流浹背舆床。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,611評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人挨队。一個(gè)月前我還...
沈念sama閱讀 49,081評(píng)論 3贊 377
代替公主和親
正文我出身青樓谷暮，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親盛垦。傳聞我的和親對(duì)象是個(gè)殘疾皇子湿弦，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,675評(píng)論 2贊 359

rnanorm | 一行命令搞定RNA-seq標(biāo)準(zhǔn)化

日常瞎掰

安裝

使用

結(jié)束語(yǔ)

往期回顧

推薦閱讀更多精彩內(nèi)容