名詞解釋:測序深度&RPKM亲轨、FKPM趋惨、TPM

測序深度(Sequencing Depth)

  • 相當于測了幾遍;
  • 指測序得到的總堿基數(shù)(bp)與所測物種基因組大小的比值惦蚊,其是評價測序量的重要指標之一器虾;
  • 如:測序產生了1000條讀段(read)讯嫂,每條讀段的長度為50bp,所測物種的基因組大小為10000bp兆沙,那么測序深度為1000*50/10000=5X欧芽。
  • 一般來說,測序深度越深越好葛圃,當然還需考慮一個成本的問題千扔。
  • 全基因組測序,一般測序深度為30X以上對檢測基因組變異的可靠性會有很大幫助库正。
  • 測序產生的錯誤率或假陽性結果會隨著測序深度的提升而下降曲楚。

此外還有測序覆蓋度(Sequencing Coverage):是指測序數(shù)據(jù)匹配到參考基因組上后,能夠覆蓋基因組的區(qū)域比率褥符。因為基因組有些區(qū)域重復序列較復雜或測序難以捕獲到龙誊,那么這些區(qū)域可能就不會被測序讀段所覆蓋。
如測序產生了1000條讀段(read)喷楣,每條讀段的長度為50bp趟大,所測物種的基因組大小為10000bp,測序讀段匹配到參考基因組后能夠覆蓋9000bp的參考基因組铣焊,那么測序覆蓋度就為9000/10000=90%逊朽。

RPKM、FKPM粗截、TPM惋耙、CPM

  • 統(tǒng)計比對到基因上的reads即為的counts即為測序原始表達矩陣,rawdata熊昌。
  • 但由于兩大原因(不同樣本的測序深度绽榛,不同基因的長度)直接用counts比較將沒有意義,因此需要進行標準化婿屹。

(1)不同樣本的測序深度:例如sample1測序深度為5X灭美,sample2測序深度為15,自然sample2的基因counts都比sample1的高很多昂利。如若消除届腐,計算比例即可。即針對每一樣本蜂奸,計算每一個基因counts相對于整體測序深度的比例犁苏。
(2)不同基因的長度:例如geneA長度為1KB,geneB長度為10KB扩所;那么geneB的counts數(shù)總體都大于geneA围详。若相除,則計算基因平均每KB的表達量即可。

  • RPKM助赞、FKPM买羞、TPM是實現(xiàn)消除上述二者影響的方法,三者差異如下雹食。
RPKM
  • Reads Per Kilobase of exon model per Million mapped reads
  • 公式大致就是某一基因的counts先除以測序深度(總reads數(shù))畜普,再除以基因長度。
    (1)由于總reads太大了群叶,直接除以這個數(shù)字就會使得標準化出來的Read數(shù)出現(xiàn)太多的小數(shù)吃挑,所以為了美觀,一般都是除以以百萬為單位的總Read數(shù)盖呼;假定一次RNA-seq的總Read數(shù)為2*10^7儒鹿, 那么在進行Read標準化的時候化撕,并不是直接除以這個數(shù)值几晤,而是除以20,因為2*10^7 = 20*10^6 = 20M
    (2)第二次除以的基因長度值植阴,按KB為單位蟹瘾,即1000。

注意順序:是先除以總reads數(shù)掠手;再除以基因長度憾朴。

RPKM1--原始counts

RPKM2--深度標準化(單位為10)

RPKM3--基因長度標準化(KB)

參考筆記“手動”計算FPKM,可以更好的理解這個公式喷鸽。

FPKM
  • FPKM同RPKM是一樣的众雷,只是RPKM用于單末端測序,而FPKM用于雙末端測序做祝。
TPM
  • TPM的計算方法其實也同RPKM很類似砾省,同樣的對基因長度和測序深度進行標準化;
  • 即counts先除基因長度混槐,再除總reads數(shù)编兄。這樣每個樣本最后的結果和都相等,不同樣本間差異更清楚声登。


    TPM1--原始counts'

    TPM2--基因長度標準化(KB)

    TPM3--深度標準化(單位為10)

可以看到每個樣本的TPM的總和是相同的(都是10)狠鸳,這就意味著TPM數(shù)值能體現(xiàn)出比對上某個基因的reads的比例,使得該數(shù)值可以直接進行樣本間的比較悯嗓。
事實也證明TPM的標準化方法更有優(yōu)勢件舵,目前都已經推薦進行TPM標準化,不再使用了RPKM脯厨、FPKM了铅祸。

CPM
  • Counts per million (CPM) mapped reads are counts scaled by the number of fragments you sequenced (N) times one million. This unit is related to the FPKM without length normalization and a factor of 10^3
  • 即只對測序文庫(每個樣本總reads數(shù))標準化,而不對長度標準化俄认。這是因為个少,差異分析往往是同一基因在兩組或多組樣本量的差異洪乍,因此不必在計算單位長度基因的表達量。
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末夜焦,一起剝皮案震驚了整個濱河市壳澳,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌茫经,老刑警劉巖巷波,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異卸伞,居然都是意外死亡抹镊,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門荤傲,熙熙樓的掌柜王于貴愁眉苦臉地迎上來垮耳,“玉大人,你說我怎么就攤上這事遂黍≈辗穑” “怎么了?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵雾家,是天一觀的道長铃彰。 經常有香客問我,道長芯咧,這世上最難降的妖魔是什么牙捉? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮敬飒,結果婚禮上邪铲,老公的妹妹穿的比我還像新娘。我一直安慰自己驶拱,他們只是感情好霜浴,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著蓝纲,像睡著了一般阴孟。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上税迷,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天永丝,我揣著相機與錄音,去河邊找鬼箭养。 笑死慕嚷,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播喝检,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼嗅辣,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了挠说?” 一聲冷哼從身側響起澡谭,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎损俭,沒想到半個月后蛙奖,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡杆兵,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年雁仲,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片琐脏。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡攒砖,死狀恐怖,靈堂內的尸體忽然破棺而出骆膝,到底是詐尸還是另有隱情祭衩,我是刑警寧澤灶体,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布阅签,位于F島的核電站,受9級特大地震影響蝎抽,放射性物質發(fā)生泄漏政钟。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一樟结、第九天 我趴在偏房一處隱蔽的房頂上張望养交。 院中可真熱鬧,春花似錦瓢宦、人聲如沸碎连。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽鱼辙。三九已至,卻和暖如春玫镐,著一層夾襖步出監(jiān)牢的瞬間倒戏,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工恐似, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留杜跷,地道東北人。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像葛闷,于是被迫代替她去往敵國和親憋槐。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345