在RNA-seq中恤溶,某一段基因區(qū)域內(nèi)的read counts取決于測(cè)序的深度和基因的長(zhǎng)度乓诽;基因越長(zhǎng)帜羊、測(cè)序深度越深,比對(duì)到該基因所在區(qū)域的read counts數(shù)目就會(huì)相對(duì)越多鸠天。因此在比較不同樣本中基因的差異表達(dá)時(shí)讼育,首先需要對(duì)read counts數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,即對(duì)基因長(zhǎng)度和測(cè)序深度進(jìn)行標(biāo)準(zhǔn)化。目前常用RPKM (Reads Per Kilobase Million), FPKM (Fragments Per Kilobase Million) 和 TPM (Transcripts Per Million)作為標(biāo)準(zhǔn)化數(shù)值奶段。
RPKM (Reads Per Kilobase Million)
RPKM的計(jì)算分兩步:
- 測(cè)序深度標(biāo)準(zhǔn)化
- per million scaling factors : 每個(gè)樣本中reads的總數(shù)并除以10^6
- 計(jì)算reads per million (RPM):每個(gè)reads數(shù)除以上面得到的“per million scaling factors”饥瓷,得到對(duì)應(yīng)基因在每百萬(wàn)reads中所占比例;
- 基因長(zhǎng)度標(biāo)準(zhǔn)化
- RPM 除以對(duì)應(yīng)基因的長(zhǎng)度(通常是所有外顯子長(zhǎng)度的總和痹籍,以kb為單位)呢铆,得到每百萬(wàn)reads每一千堿基對(duì)中包含的reads數(shù),即RPKM蹲缠。
FPKM (Fragments Per Kilobase Million)
FPKM與RPKM的計(jì)算過(guò)程相同棺克,只是RPKM用于單端測(cè)序結(jié)果,F(xiàn)PKM用于雙端測(cè)序結(jié)果线定。
TPM (Transcripts Per Kilobase Million)
TPM 與RPKM/FPKM的區(qū)別在于:TPM先消除基因長(zhǎng)度的影響娜谊,再消除測(cè)序深度的影響。
其計(jì)算分兩步:
- 基因長(zhǎng)度標(biāo)準(zhǔn)化
- 計(jì)算RPK (reads per kilobase) : 將每個(gè)read counts除以對(duì)應(yīng)基因的長(zhǎng)度(外顯子區(qū)域的長(zhǎng)度斤讥,單位為kb)纱皆,得到每千個(gè)堿基對(duì)應(yīng)的reads數(shù)。
- 測(cè)序深度標(biāo)準(zhǔn)化
- per million scaling factors: 每一個(gè)樣本中的RPK加起來(lái)的總數(shù)除以10^6;
- TPM: 用RPK除以“per million scaling factors”芭商。
由計(jì)算公式可知派草,每一個(gè)樣本中所有基因的TPM之和都等于10^6, 每個(gè)基因的均值都等于10^6/N(N為基因總數(shù))蓉坎。由于每個(gè)樣本總的TPM值是相同的澳眷,這樣便于樣本間基因差異的比較。