rnanorm | 一行命令搞定RNA-seq標(biāo)準(zhǔn)化

日常瞎掰

??目前侧啼,普通RNA-seq測(cè)序已經(jīng)成為科研中一件非常稀松平常的事牛柒,這也是得益于其物美價(jià)廉的基礎(chǔ)。雖然已經(jīng)有不少成熟的RNA-seq分析流程存在痊乾,但并沒(méi)有形成一個(gè)統(tǒng)一的標(biāo)準(zhǔn)答案皮壁。畢竟,條條大路通羅馬哪审,走哪一條都可以得到想要的結(jié)果蛾魄,這也無(wú)傷大雅。就拿我們今天要說(shuō)的RNA-seq的標(biāo)準(zhǔn)化方法來(lái)說(shuō)就不止一種湿滓,可供選擇的方式就有CPM滴须、TPMFPKM三種叽奥。當(dāng)然扔水,今天我們并不是要討論哪一種方式更好,而是想跟大家分享一個(gè)好用的工具來(lái)快速進(jìn)行標(biāo)準(zhǔn)化朝氓。rnanorm是一個(gè)基于python開(kāi)發(fā)的命令行工具魔市,可以很方便地來(lái)做以上三種方式的標(biāo)準(zhǔn)化操作。

安裝

??python包的安裝方式赵哲,很簡(jiǎn)單嘹狞,一行命令即可實(shí)現(xiàn):

pip install rnanorm

使用

  1. 正常情況
    ??正常情況下,表達(dá)矩陣?yán)锩娴幕蛎ǔJ褂肎TF里面的symobol誓竿、ensembl 原始ID命名磅网,這樣最方便的方式就是我們給軟件兩個(gè)參數(shù):原始矩陣和GTF文件即可:
head readcount.txt 
FEATURE_ID        sampleA1  sampleA2  sampleA3  sampleB1  sampleB2  sampleB3
ENSMUSG00000000001.1      4248    6254    3409    7387    8099    3804
ENSMUSG00000000003.15      0       0       5       0       0       0
ENSMUSG00000000028.15      2239    3068    1801    2581    3081    1466
ENSMUSG00000000031.16      0       0       0       3       0       0
ENSMUSG00000000037.17      57      67      79      1       2       0
ENSMUSG00000000049.11      0       0       0       0       6       0

rnanorm readcount.txt --annotation gencode.vM25.annotation.gtf --gene-id-attr gene_id --tpm-output sample.tpm.txt

??示例指定的是TPM方式,如果想要CPM筷屡、FPKM的結(jié)果可以分別使用參數(shù)--cpm-output涧偷、--fpkm-output來(lái)指定簸喂。這三個(gè)參數(shù)并不沖突,可以同時(shí)指定燎潮,得到三種標(biāo)準(zhǔn)化結(jié)果喻鳄。

  1. 其他情況
    ??有些時(shí)候,我們拿到的矩陣?yán)锩婊虻拿Q(chēng)可能不是原始的ID确封,如下面所示除呵,雖然知道使用的是ensembl,但并不是GTF里面原始的ID爪喘。因?yàn)槿コ薎D點(diǎn)后面的后綴颜曾,所以即使提供了GTF文件,軟件也是沒(méi)法完成矩陣標(biāo)準(zhǔn)化秉剑。
    ??TPM泛豪、FPKM標(biāo)準(zhǔn)化的操作,除了矩陣以外侦鹏,其實(shí)另外還需要每個(gè)基因的長(zhǎng)度信息诡曙,提供GTF文件就是為了獲取這個(gè)信息。對(duì)于提供基因長(zhǎng)度略水,也可以使用軟件--gene-lengths來(lái)提供价卤。像下面這樣基因ID與GTF中不完全一致的情況,要么把矩陣?yán)锩婊騃D轉(zhuǎn)化成與GTF一致后再用上面的命令做標(biāo)準(zhǔn)化渊涝,要么提供一個(gè)基因長(zhǎng)度的兩列表格使用下面的命令來(lái)標(biāo)準(zhǔn)化荠雕。
head readcount.txt 
FEATURE_ID        sampleA1  sampleA2  sampleA3  sampleB1  sampleB2  sampleB3
ENSMUSG00000000001     4248    6254    3409    7387    8099    3804
ENSMUSG00000000003      0       0       5       0       0       0
ENSMUSG00000000028      2239    3068    1801    2581    3081    1466
ENSMUSG00000000031      0       0       0       3       0       0
ENSMUSG00000000037      57      67      79      1       2       0
ENSMUSG00000000049      0       0       0       0       6       0

awk -F '[\t"]' -v OFS="\t" 'BEGIN{print"FEATURE_ID","GENE_LENGTHS"}/^chr/&&$3=="gene"{len=$5-$4+1;print substr($10,1,18),len}' gencode.vM25.annotation.gtf >mm10.genelen.vM25.txt
head mm10.genelen.vM25.txt
FEATURE_ID      GENE_LENGTHS
ENSMUSG00000102693      1070
ENSMUSG00000064842      110
ENSMUSG00000051951      465598
ENSMUSG00000102851      480
ENSMUSG00000103377      2819
ENSMUSG00000104017      2233

rnanorm readcount.txt --gene-lengths=mm10.genelen.vM25.txt --tpm-output=readcount.tpm.txt

??如果想要的標(biāo)準(zhǔn)化方式是CPM,可以忽略--annotation或者--gene-lengths參數(shù)驶赏,直接提供原始矩陣即可。

結(jié)束語(yǔ)

??從上面的示例可以看出使用rnanorm做標(biāo)準(zhǔn)化還是很方便的既鞠,不過(guò)有一些注意事項(xiàng)還是需要指出的:表達(dá)矩陣的基因那一列的列名必須為FEATURE_ID煤傍;提供GTF文件時(shí),需要使用--gene-id-attr參數(shù)來(lái)指定基因ID的屬性名嘱蛋,如示例矩陣中基因名為ensembl蚯姆,則其在GTF中對(duì)應(yīng)的ID屬性為gene_id,如果是symbol的話(huà)就要換成gene_name洒敏;提供基因長(zhǎng)度文件時(shí)龄恋,兩個(gè)列名需為FEATURE_IDGENE_LENGTHS凶伙。當(dāng)然郭毕,CPMTPM函荣、FPKM標(biāo)準(zhǔn)化并不難显押,知道了方法自己完全可以寫(xiě)個(gè)函數(shù)來(lái)計(jì)算扳肛,但既然有了現(xiàn)成好用的工具,直接使用豈不是更省事省力乘碑!為軟件作者口頭點(diǎn)個(gè)贊挖息!


往期回顧

rGREAT | 基因組區(qū)間功能富集
利用UCSC預(yù)測(cè)啟動(dòng)子序列可能結(jié)合的轉(zhuǎn)錄因子
Vision | scRNA細(xì)胞相似性 + 差異signature
HiC | contacts vs distance
hdWGCNA | 單細(xì)胞數(shù)據(jù)共表達(dá)網(wǎng)絡(luò)分析

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市兽肤,隨后出現(xiàn)的幾起案子套腹,更是在濱河造成了極大的恐慌,老刑警劉巖资铡,帶你破解...
    沈念sama閱讀 222,104評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件电禀,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡害驹,警方通過(guò)查閱死者的電腦和手機(jī)鞭呕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,816評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)宛官,“玉大人葫松,你說(shuō)我怎么就攤上這事〉紫矗” “怎么了腋么?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,697評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)亥揖。 經(jīng)常有香客問(wèn)我珊擂,道長(zhǎng),這世上最難降的妖魔是什么费变? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,836評(píng)論 1 298
  • 正文 為了忘掉前任摧扇,我火速辦了婚禮,結(jié)果婚禮上挚歧,老公的妹妹穿的比我還像新娘扛稽。我一直安慰自己,他們只是感情好滑负,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,851評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布在张。 她就那樣靜靜地躺著,像睡著了一般矮慕。 火紅的嫁衣襯著肌膚如雪帮匾。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,441評(píng)論 1 310
  • 那天痴鳄,我揣著相機(jī)與錄音瘟斜,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛哼转,可吹牛的內(nèi)容都是我干的明未。 我是一名探鬼主播,決...
    沈念sama閱讀 40,992評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼壹蔓,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼趟妥!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起佣蓉,我...
    開(kāi)封第一講書(shū)人閱讀 39,899評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤披摄,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后勇凭,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體疚膊,經(jīng)...
    沈念sama閱讀 46,457評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,529評(píng)論 3 341
  • 正文 我和宋清朗相戀三年虾标,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了寓盗。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,664評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡璧函,死狀恐怖傀蚌,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情蘸吓,我是刑警寧澤善炫,帶...
    沈念sama閱讀 36,346評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站库继,受9級(jí)特大地震影響箩艺,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜宪萄,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,025評(píng)論 3 334
  • 文/蒙蒙 一艺谆、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧拜英,春花似錦静汤、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,511評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)恢暖。三九已至排监,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間杰捂,已是汗流浹背舆床。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,611評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人挨队。 一個(gè)月前我還...
    沈念sama閱讀 49,081評(píng)論 3 377
  • 正文 我出身青樓谷暮,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親盛垦。 傳聞我的和親對(duì)象是個(gè)殘疾皇子湿弦,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,675評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容