目前窝趣,轉(zhuǎn)錄組測序仍是應(yīng)用最廣的高通量測序技術(shù)之一,很多研究課題是關(guān)于基因表達潛在的機制勾给,并已經(jīng)發(fā)現(xiàn)了一些現(xiàn)象滩报,但分子機制還不清楚锅知。而做轉(zhuǎn)錄組測序特別適合用于分子機制探究,可以獲得樣本中幾乎所有的mRNA信息脓钾。關(guān)于轉(zhuǎn)錄組領(lǐng)域的研究售睹,應(yīng)用范圍極為廣泛。如可研究同一個體不同組織之間的基因表達差異可训;或者不同的外界處理條件下(病毒昌妹、光照、紫外握截、干旱飞崖、高溫和高鹽脅迫等),對基因表達的影響谨胞。
在我們正式進行轉(zhuǎn)錄組數(shù)據(jù)分析之前固歪,需要先對組內(nèi)生物學(xué)重復(fù)(一般設(shè)置3個生物學(xué)重復(fù))進行樣本關(guān)系分析,判斷組內(nèi)重復(fù)性效果的好壞胯努,是否有離群樣本牢裳。應(yīng)廣大研究者之需,本期針對大家比較關(guān)心的樣本重復(fù)性問題進行探討康聂,力爭為各位老師在科研之路上帶來幫助贰健。
在進行問題討論之前胞四,首先我們對可能會困擾大家的關(guān)于什么是生物學(xué)重復(fù)和技術(shù)學(xué)重復(fù)的問題進行區(qū)分恬汁。
①生物學(xué)重復(fù):指同一處理下不同的生物學(xué)樣品。由于遺傳和環(huán)境等因素的影響會引起生物體的個體差異辜伟,因此需要采用生物重復(fù)的實驗設(shè)計方法來降低該差異氓侧。一般的實驗設(shè)計中,都會包括實驗組和對照組导狡。如下圖A實驗組包含3只小鼠约巷,那么這3只小鼠,經(jīng)過相同的實驗處理旱捧,分別測組織的RNA-seq独郎,即為一組生物學(xué)重復(fù)。
②技術(shù)重復(fù):簡單來說就是對同一生物體樣品進行重復(fù)地檢測枚赡。如下圖B氓癌、C,都屬于技術(shù)重復(fù)贫橙。對于第一種技術(shù)重復(fù)贪婉,重點是檢測RNA-seq方法的準確度。比如當發(fā)現(xiàn)了一個新的檢測基因表達量的方法卢肃,就需要用這種重復(fù)來驗證(圖1 B)疲迂;第二種技術(shù)重復(fù)重點是這個小鼠本身的基因表達水平(圖1 C)才顿。
圖1 生物學(xué)重復(fù)和技術(shù)重復(fù)
那么接下來,我們正式切入主題尤蒿,針對樣本重復(fù)性問題進行探討郑气。
『1. 生物學(xué)重復(fù)必須要設(shè)置嗎?』
答:需要腰池。生物學(xué)實驗中竣贪,生物體往往存在異質(zhì)性,常常需要設(shè)置重復(fù)巩螃,以此確保不是個體的偶然變異對結(jié)果產(chǎn)生的影響[1]演怎。若不設(shè)置組內(nèi)生物學(xué)重復(fù),在投稿時也會受到審稿人的質(zhì)疑避乏。我們無法判斷組內(nèi)差異所占的比例有多大爷耀,可能獲得的差異表達基因僅僅是少數(shù)個體差異的表現(xiàn),并不能反映是真正處理效應(yīng)導(dǎo)致的差異拍皮。設(shè)置生物學(xué)重復(fù)可以評估組內(nèi)誤差歹叮,降低背景差異,檢測離群樣本铆帽,增強結(jié)果的可靠性咆耿。
Tips
組間差異是由組內(nèi)差異和處理效應(yīng)共同導(dǎo)致的[2]。組內(nèi)差異包括采樣個體間的差異爹橱、實驗操作誤差等等萨螺,這些差異是我們在實驗時要盡可能降低的。而組內(nèi)誤差主要由生物學(xué)誤差和技術(shù)誤差引起的愧驱。
圖2 組間差異和組內(nèi)差異
『2. 每個處理推薦多少個生物學(xué)重復(fù)呢慰技?』
答:不同的實驗樣品,由于外界因素導(dǎo)致的個體之間的差異或?qū)嶒灢僮鲗?dǎo)致的誤差可能不同组砚。因此吻商,針對不同的樣品所推薦的組內(nèi)生物學(xué)重復(fù)也有所差別[3]。
? ? ① 對于動植物樣品糟红,建議3~5個生物學(xué)重復(fù)艾帐,對生物學(xué)樣品之間做相關(guān)性檢驗,提高實驗結(jié)果的可信度盆偿;
? ? ② 對于細胞樣品柒爸,生物學(xué)重復(fù)之間的差異性相對較小,建議3個以上生物學(xué)重復(fù)陈肛;
? ? ③ 對于臨床樣品揍鸟,由于供試者的基因型、生活方式、生活環(huán)境阳藻、年齡晰奖、性別可能存在較大差異,可能需要更多的生物學(xué)重復(fù)腥泥,一般10個生物學(xué)重復(fù)以上[4]匾南。
Tips
在轉(zhuǎn)錄組測序時,一般不建議設(shè)置兩個重復(fù)蛔外。因為如果兩個重復(fù)樣品結(jié)果不一致蛆楞,無法確定以哪個數(shù)據(jù)為參考。
『3. 用于判斷組內(nèi)重復(fù)性好壞的常用工具有哪些夹厌?』
答:在實際分析過程中確認組內(nèi)重復(fù)性的好壞方法有很多豹爹,可進行樣本的PCA,可計算兩兩樣本的相關(guān)系數(shù)矛纹,或者繪制樣本聚類圖臂聋、重復(fù)性散點圖多種方式綜合判斷。在實際分析中或南,通常結(jié)合PCA和相關(guān)性系數(shù)綜合判斷樣本是否離群孩等。
? ? ① PCA:詳見Question 4;
? ? ② 相關(guān)系數(shù):通常計算兩個樣品之間的Pearson或Spearman相關(guān)系數(shù)判斷組內(nèi)重復(fù)性情況采够。相關(guān)系數(shù)越接近1肄方,樣品間相似度越高。一般情況下蹬癌,組內(nèi)生物學(xué)樣本相關(guān)系數(shù)大于組間樣本权她,則表明組內(nèi)重復(fù)性較好;
? ? ③ 樣本聚類樹:可用于判斷在不同實驗條件下的表達模式冀瓦。依據(jù)樣品的表達譜進行聚類伴奥,樣品之間重復(fù)性較好時通常會聚在同一分支下写烤。如果組內(nèi)樣本重復(fù)性較差可能會呈現(xiàn)無規(guī)則的聚類形式翼闽;
? ? ④ 重復(fù)性散點圖:展示組內(nèi)樣本的重復(fù)性情況。圖中偏離對角線的點越少洲炊,樣品間的相關(guān)性越高感局,重復(fù)性越好。
圖3 Omicsmart中樣本關(guān)系分析圖形
『4. PCA是什么暂衡?怎么看询微?』
答:主成分分析(Principal Component Analysis,PCA)是一種線性降維算法狂巢。用方差(Variance)來衡量數(shù)據(jù)的差異性撑毛,將高維數(shù)據(jù)用某幾個綜合指標來表示。將原本鑒定到的所有基因的表達量重新線性組合唧领,形成一組新的綜合變量藻雌,同時根據(jù)所分析的問題從中選取2-3個綜合變量雌续,使它們盡可能多地反映原有變量的信息,從而達到降維的目的胯杭。如PC1(Principal Component 1)和PC2(Principal Component 2)為降維后獲得的兩個主成分因子驯杜,可分別從數(shù)據(jù)差異性最大和次大的方向提取出來。
在樣本關(guān)系分析過程中做个,PCA可以讓我們非常直觀地看出各個樣本之間的相似性鸽心。關(guān)于轉(zhuǎn)錄組測序,我們可能獲得上萬個基因的表達信息居暖,那么利用PCA可將樣本所包含的上萬個維度的信息(上萬個基因的表達量)顽频,降維至某些維度的綜合指標(主成分)表示。一般選取PC1和PC2太闺,來解釋樣本間的重復(fù)性好壞與組間樣本的差異度冲九。如下圖PCA散點圖,組內(nèi)樣本呈現(xiàn)相互聚集跟束,說明組內(nèi)的重復(fù)性比較好莺奸。
圖4 Omicsmart在線報告PCA圖
Tips
在文章中,也會看到三維的PCA圖冀宴。這時選取了PC1灭贷,PC2,PC3去解釋樣本間的距離略贮。PC1+PC2(+PC3)越大甚疟,對方差解釋度越大,越具有說服力逃延。
『5. 相關(guān)性系數(shù)分析時览妖,相關(guān)系數(shù)達到多少可認為組內(nèi)重復(fù)性效果好?』
答:一般情況下揽祥,計算相關(guān)性系數(shù)時讽膏,對于生物學(xué)重復(fù)(如采樣時個體差異)之間的相關(guān)系數(shù)依據(jù)經(jīng)驗建議在0.7以上較好;對于技術(shù)重復(fù)(實驗操作拄丰、實驗儀器等)之間的相關(guān)系數(shù)依據(jù)項目經(jīng)驗來說在0.85以上比較合理府树。
Tips
關(guān)于相關(guān)系數(shù)如何計算,可能還存在不少的困惑料按。我們在這里也解釋一下奄侠。對于轉(zhuǎn)錄組數(shù)據(jù),可以利用樣本的表達譜來計算樣本間的相關(guān)性载矿,通過計算相關(guān)系數(shù)r來評估每組樣本的生物重復(fù)性垄潮。最常用的度量是Pearson和Spearman相關(guān)系數(shù)。
那么在實際分析中,這兩種計算方式應(yīng)該如何選擇呢弯洗?
我們首先簡單了解二者的區(qū)別甫题。對于Pearson相關(guān)系數(shù)很簡單,主要用來衡量兩個數(shù)據(jù)集的線性相關(guān)程度涂召。而Spearman相關(guān)系數(shù)它不關(guān)心兩個數(shù)據(jù)集是否線性相關(guān)坠非,所關(guān)注的是單調(diào)相關(guān)。所以Spearman相關(guān)系數(shù)也稱為等級相關(guān)或者秩相關(guān)(即rank)果正。從下圖中我們可以更好的理解炎码,如果對數(shù)據(jù)進行線性變換(y=ax+b;a≠0)秋泳,兩者相關(guān)系數(shù)的絕對值都不會發(fā)生變化(圖5 A)潦闲;如果對數(shù)據(jù)進行單調(diào)但不是線性的變換迫皱,比如最常見的log scale,Spearman相關(guān)系數(shù)的絕對值也不會發(fā)生變化[5](圖5 B)卓起。這時我們就可以知道,兩者的前提假設(shè)就不同戏阅,Pearson相關(guān)假設(shè)數(shù)據(jù)集在同一條直線上,而Spearman只要求單調(diào)遞增或者遞減奕筐,所以Pearson的統(tǒng)計效力一般情況下比Spearman要高舱痘。但是更重要的是芭逝,我們需要根據(jù)實際情況選擇正確的假設(shè)。比如渊胸,某個實驗做了3次生物學(xué)重復(fù),那有理由假設(shè)這3次重復(fù)線性相關(guān)蹬刷。而如果是一個基因和另一個受到調(diào)控的基因的表達水平瓢捉,或者某個基因順式作用元件的染色質(zhì)開放程度,和這個基因表達水平之間的關(guān)系就可能需要假設(shè)單調(diào)相關(guān)办成。
圖5 Pearson和Spearman相關(guān)系數(shù)
關(guān)于兩者的特點也有所不同,若想要深入學(xué)習(xí)二者的算法特征搂漠,可回顧往期文章《相關(guān)系數(shù)第一彈:哪哪都能看到的皮爾森相關(guān)》和《相關(guān)系數(shù)第二彈:斯皮爾曼相關(guān)》迂卢,都有詳細的解釋喲。
『6. PCA和相關(guān)系數(shù)的算法,哪個更能判斷樣本的重復(fù)性而克?為什么靶壮?』
答:相關(guān)系數(shù)。因為PCA為把對樣品貢獻大的信息保留员萍,所描述的是整體所有組的特征腾降;而相關(guān)系數(shù)直接呈現(xiàn)的是兩組樣品之間的相關(guān)程度。若相關(guān)系數(shù)越高碎绎,表明兩組樣品之間的相關(guān)程度越高螃壤,即重復(fù)性越好。
『7. 樣本離群了筋帖,還能用于分析嗎奸晴?』
答:首先判斷離群程度,若離群程度較小日麸,則可以嘗試設(shè)置閾值寄啼,縮小基因范圍,再次重新進行相關(guān)性分析判斷樣本是否離群代箭。若離群程度很大墩划,對后續(xù)差異分析的結(jié)果造成了很大的影響,那么可以考慮將該樣本剔除嗡综,再進行后續(xù)差異分析等等走诞。
Tips
轉(zhuǎn)錄組測序通常要求設(shè)置3個生物學(xué)重復(fù)樣本,如果樣本足夠多蛤高,建議比預(yù)期實驗設(shè)計多送1~2個樣本測序蚣旱,以便后續(xù)某個樣品與組內(nèi)其它樣本出現(xiàn)離群情況,直接剔除離群樣本戴陡,省時省力塞绿。若測序樣本較少,無法剔除樣本恤批,也可以考慮對同一批次的備份樣本再次測序异吻,后續(xù)再重新分析。
以上就是今天的關(guān)于樣本關(guān)系分析問題喜庞,在此也向廣大研究者征集相關(guān)問題诀浪,如有疑問,歡迎下方留言延都。或者也可登錄基迪奧OmicShare論壇求摇,搜索和討論更多相關(guān)知識。
論壇網(wǎng)址:
https://www.omicshare.com/forum/
▼參考文獻▼
[1] Robles, José A et al. Efficient experimental design and analysis strategies for the detection of differential expression using RNA-Sequencing. BMC genomics vol, 13 484. 17 Sep. 2012, doi:10.1186/1471-2164-13-484
[2] Hansen, K., Wu, Z., Irizarry, R. et al. Sequencing technology does not eliminate biological variability. Nat Biotechnol. 29, 572–573. 2011,?https://doi.org/10.1038/nbt.1910
[3] Todd E V, Black M A, Gemmell N J. The power and promise of RNA-seq in ecology and evolution[J]. Molecular ecology, 2016, 25(6): 1224-1241
[4] Liu Y, Zhou J, White K P. RNA-seq differential expression studies: more sequence or more replication?[J]. Bioinformatics, 2013, 30(3): 301-304
[5] Trost B, Moir CA, Gillespie ZE, et al. Concordance between RNA-sequencing data and DNA microarray data in transcriptome analysis of proliferative and quiescent fibroblasts. R Soc Open Sci. 2015, 2(9):150402. doi:10.1098/rsos.150402