RNA-seq看表達(dá)量高低是看哪個(gè)值糊昙?
1.Read count
(1)數(shù)值概念:比對到gene A的reads數(shù)辛掠。
(2)用途:用于換算CPM、RPKM等后續(xù)其他指標(biāo)释牺;作為基因表達(dá)差異分析的輸入數(shù)值萝衩。
大部分差異分析軟件(如DESeq和edgeR),用原始的可比對的reads count作為輸入没咙,并用負(fù)二項(xiàng)分布模型估算樣本間基因差異表達(dá)的概率猩谊。
軟件自動(dòng)會(huì)對reads count做一些校正。如果你使用一些校正后的指標(biāo)祭刚,例如RPKM作為輸入牌捷,是不合理的。
2.CPM:Counts per million
(1)數(shù)值概念:計(jì)算公式:CPM=C/N*1000000
設(shè)C為比對到 gene A 的 reads 數(shù)(read count)涡驮,
N 為比對到所有 gene 的總reads 數(shù)暗甥。
(2)用途:在某些情況下,只想了解每個(gè)基因被覆蓋到的相對reads數(shù),而不希望對其做長度校正捉捅,就會(huì)使用這個(gè)指標(biāo)撤防。
在某些RNA-seq文章或一些軟件輸出結(jié)果中(如edgeR)會(huì)出現(xiàn)。
CPM只對read count相對總reads數(shù)做了數(shù)量的均一化锯梁。
當(dāng)如果想進(jìn)行表達(dá)量的基因間比較即碗,則不得不考慮基因長度的不同焰情。
如果進(jìn)一步做長度的均一化陌凳,就得到了下面的RPKM。
3.RPKM:Reads Per kb perMillion reads
(1)數(shù)值概念:計(jì)算公式:RPKM=(1000000C)/(NL/1000)
設(shè)C 為比對到 gene A 的 reads數(shù)(read count)内舟,
N為比對到所有 gene 的總 reads 數(shù)合敦,L 為 gene A 的堿基數(shù)。 RPKM法能消除基因長度和測序量差異對計(jì)算基因表達(dá)的影響验游,
計(jì)算得到的基因表達(dá)量可直接用于比較不同樣品間的基因表達(dá)差異充岛。
(2)用途:用于與基因表達(dá)量相關(guān)的后期分析.例如:基因表達(dá)趨勢分析,共表達(dá)網(wǎng)絡(luò)構(gòu)建保檐,熱圖繪制等都使用這類數(shù)值。
FPKM意義與RPKM極為相近崔梗。
二者區(qū)別僅在于夜只,F(xiàn)ragment 與Read。
RPKM的誕生是針對早期的SE測序蒜魄,F(xiàn)PKM則是在PE測序上對RPKM的校正扔亥。
只要明確Reads和Fragments的區(qū)別,RPKM和FPKM的概念便易于區(qū)分谈为。
Reads即是指下機(jī)后fastq數(shù)據(jù)中的每一條Reads旅挤,
Fragments則是指每一段用于測序的核酸片段。
1.RNA-Seq又稱轉(zhuǎn)錄組高通量測序(transcriptome sequencing)或稱為全轉(zhuǎn)錄組鳥槍法測序(Whole Transcriptom Shotgun Sequencing WTSS)
把高通量測序技術(shù)應(yīng)用到由 RNA 逆轉(zhuǎn)錄生成的 cDNA 上伞鲫,
從而獲得來自不同基因的RNA 片段在特定樣本中的含量
2.基因表達(dá)(gene expression)
基因組中結(jié)構(gòu)基因經(jīng)過轉(zhuǎn)錄粘茄、翻譯等過程,合成蛋白質(zhì)秕脓,
進(jìn)而發(fā)揮其特定的生物學(xué)功能的全過程柒瓣。
3.轉(zhuǎn)錄組
遺傳學(xué)中心法則表明,遺傳信息通過信使RNA(mRNA)從DNA傳遞到蛋白質(zhì),
因此,mRNA被稱為DNA和蛋白質(zhì)之間信息傳遞的”橋梁”,
而所有表達(dá)基因的序列及其轉(zhuǎn)錄水平,綜合起來被稱為 轉(zhuǎn)錄組(transcriptome)。
即:特定組織或細(xì)胞在某一功能狀態(tài)下所能轉(zhuǎn)錄出來的所有RNA的總和吠架,
包括mRNA和非編碼RNA嘹朗。
轉(zhuǎn)錄組(transcriptome)
廣義上指某一生理?xiàng)l件下,細(xì)胞內(nèi)所有轉(zhuǎn)錄產(chǎn)物的集合诵肛,
包括信使mRNA屹培、核糖體rRNA、轉(zhuǎn)運(yùn)tRNA及非編碼non-coding RNA怔檩;
狹義上指所有mRNA的集合褪秀。
蛋白質(zhì)是行使細(xì)胞功能的主要承擔(dān)者,蛋白質(zhì)組是細(xì)胞功能和狀態(tài)的最直接描述薛训,
轉(zhuǎn)錄組成為研究基因表達(dá)的主要手段媒吗,
轉(zhuǎn)錄組是連接基因組遺傳信息與生物功能的蛋白質(zhì)組的必然紐帶,
轉(zhuǎn)錄水平的調(diào)控是目前研究最多的乙埃,也是生物體最重要的調(diào)控方式闸英。
基因的Transcript Variant 和 isoform的區(qū)別如下:
1.transcript variant是從結(jié)果來看的,一個(gè)基因產(chǎn)生了不同的mRNA介袜;
splice variant是從過程講的甫何,強(qiáng)調(diào)內(nèi)含子剪切的方式不一樣。
variant指的是轉(zhuǎn)錄本的亞型遇伞,
isform指的是蛋白水平的辙喂。
有的時(shí)候雖然variant很多但是對應(yīng)的蛋白可能是重復(fù)的。
2.有很多過程可以影響isoform的形成,如可變剪切巍耗,
即不一定所有的外顯子都用來形成成熟的mRNA,而且有時(shí)候什么內(nèi)含子,外顯子也不是絕對的秋麸。
另外有RNA editing這個(gè)過程,會(huì)使得形成mRNA時(shí)某個(gè)特定的位置的堿基發(fā)生變化炬太,
也就是變成不是原來基因想要編碼的東西灸蟆。
有個(gè)例子就是一個(gè)叫XBP-1的轉(zhuǎn)錄因子,它調(diào)控細(xì)胞的unfolded protein response亲族,
激活方式就是上游蛋白剪切其mRNA然后生成有活性的mRNA次乓,
所以這種variant的生成竟然也是調(diào)控的一種方法。