轉(zhuǎn)載---[轉(zhuǎn)錄組] 轉(zhuǎn)錄組專題——關(guān)于樣本重復(fù)性問題小技巧

目前窝趣,轉(zhuǎn)錄組測序仍是應(yīng)用最廣的高通量測序技術(shù)之一,很多研究課題是關(guān)于基因表達潛在的機制勾给,并已經(jīng)發(fā)現(xiàn)了一些現(xiàn)象滩报,但分子機制還不清楚锅知。而做轉(zhuǎn)錄組測序特別適合用于分子機制探究,可以獲得樣本中幾乎所有的mRNA信息脓钾。關(guān)于轉(zhuǎn)錄組領(lǐng)域的研究售睹,應(yīng)用范圍極為廣泛。如可研究同一個體不同組織之間的基因表達差異可训;或者不同的外界處理條件下(病毒昌妹、光照、紫外握截、干旱飞崖、高溫和高鹽脅迫等),對基因表達的影響谨胞。

在我們正式進行轉(zhuǎn)錄組數(shù)據(jù)分析之前固歪,需要先對組內(nèi)生物學(xué)重復(fù)(一般設(shè)置3個生物學(xué)重復(fù))進行樣本關(guān)系分析,判斷組內(nèi)重復(fù)性效果的好壞胯努,是否有離群樣本牢裳。應(yīng)廣大研究者之需,本期針對大家比較關(guān)心的樣本重復(fù)性問題進行探討康聂,力爭為各位老師在科研之路上帶來幫助贰健。

在進行問題討論之前胞四,首先我們對可能會困擾大家的關(guān)于什么是生物學(xué)重復(fù)和技術(shù)學(xué)重復(fù)的問題進行區(qū)分恬汁。

①生物學(xué)重復(fù):指同一處理下不同的生物學(xué)樣品。由于遺傳和環(huán)境等因素的影響會引起生物體的個體差異辜伟,因此需要采用生物重復(fù)的實驗設(shè)計方法來降低該差異氓侧。一般的實驗設(shè)計中,都會包括實驗組和對照組导狡。如下圖A實驗組包含3只小鼠约巷,那么這3只小鼠,經(jīng)過相同的實驗處理旱捧,分別測組織的RNA-seq独郎,即為一組生物學(xué)重復(fù)。

②技術(shù)重復(fù):簡單來說就是對同一生物體樣品進行重復(fù)地檢測枚赡。如下圖B氓癌、C,都屬于技術(shù)重復(fù)贫橙。對于第一種技術(shù)重復(fù)贪婉,重點是檢測RNA-seq方法的準確度。比如當發(fā)現(xiàn)了一個新的檢測基因表達量的方法卢肃,就需要用這種重復(fù)來驗證(圖1 B)疲迂;第二種技術(shù)重復(fù)重點是這個小鼠本身的基因表達水平(圖1 C)才顿。

圖1 生物學(xué)重復(fù)和技術(shù)重復(fù)

那么接下來,我們正式切入主題尤蒿,針對樣本重復(fù)性問題進行探討郑气。

『1. 生物學(xué)重復(fù)必須要設(shè)置嗎?』

答:需要腰池。生物學(xué)實驗中竣贪,生物體往往存在異質(zhì)性,常常需要設(shè)置重復(fù)巩螃,以此確保不是個體的偶然變異對結(jié)果產(chǎn)生的影響[1]演怎。若不設(shè)置組內(nèi)生物學(xué)重復(fù),在投稿時也會受到審稿人的質(zhì)疑避乏。我們無法判斷組內(nèi)差異所占的比例有多大爷耀,可能獲得的差異表達基因僅僅是少數(shù)個體差異的表現(xiàn),并不能反映是真正處理效應(yīng)導(dǎo)致的差異拍皮。設(shè)置生物學(xué)重復(fù)可以評估組內(nèi)誤差歹叮,降低背景差異,檢測離群樣本铆帽,增強結(jié)果的可靠性咆耿。

Tips

組間差異是由組內(nèi)差異和處理效應(yīng)共同導(dǎo)致的[2]。組內(nèi)差異包括采樣個體間的差異爹橱、實驗操作誤差等等萨螺,這些差異是我們在實驗時要盡可能降低的。而組內(nèi)誤差主要由生物學(xué)誤差和技術(shù)誤差引起的愧驱。

圖2 組間差異和組內(nèi)差異

『2. 每個處理推薦多少個生物學(xué)重復(fù)呢慰技?』

答:不同的實驗樣品,由于外界因素導(dǎo)致的個體之間的差異或?qū)嶒灢僮鲗?dǎo)致的誤差可能不同组砚。因此吻商,針對不同的樣品所推薦的組內(nèi)生物學(xué)重復(fù)也有所差別[3]。

? ? ① 對于動植物樣品糟红,建議3~5個生物學(xué)重復(fù)艾帐,對生物學(xué)樣品之間做相關(guān)性檢驗,提高實驗結(jié)果的可信度盆偿;

? ? ② 對于細胞樣品柒爸,生物學(xué)重復(fù)之間的差異性相對較小,建議3個以上生物學(xué)重復(fù)陈肛;

? ? ③ 對于臨床樣品揍鸟,由于供試者的基因型、生活方式、生活環(huán)境阳藻、年齡晰奖、性別可能存在較大差異,可能需要更多的生物學(xué)重復(fù)腥泥,一般10個生物學(xué)重復(fù)以上[4]匾南。

Tips

在轉(zhuǎn)錄組測序時,一般不建議設(shè)置兩個重復(fù)蛔外。因為如果兩個重復(fù)樣品結(jié)果不一致蛆楞,無法確定以哪個數(shù)據(jù)為參考。

『3. 用于判斷組內(nèi)重復(fù)性好壞的常用工具有哪些夹厌?』

答:在實際分析過程中確認組內(nèi)重復(fù)性的好壞方法有很多豹爹,可進行樣本的PCA,可計算兩兩樣本的相關(guān)系數(shù)矛纹,或者繪制樣本聚類圖臂聋、重復(fù)性散點圖多種方式綜合判斷。在實際分析中或南,通常結(jié)合PCA和相關(guān)性系數(shù)綜合判斷樣本是否離群孩等。

? ? ① PCA:詳見Question 4;

? ? ② 相關(guān)系數(shù):通常計算兩個樣品之間的Pearson或Spearman相關(guān)系數(shù)判斷組內(nèi)重復(fù)性情況采够。相關(guān)系數(shù)越接近1肄方,樣品間相似度越高。一般情況下蹬癌,組內(nèi)生物學(xué)樣本相關(guān)系數(shù)大于組間樣本权她,則表明組內(nèi)重復(fù)性較好;

? ? ③ 樣本聚類樹:可用于判斷在不同實驗條件下的表達模式冀瓦。依據(jù)樣品的表達譜進行聚類伴奥,樣品之間重復(fù)性較好時通常會聚在同一分支下写烤。如果組內(nèi)樣本重復(fù)性較差可能會呈現(xiàn)無規(guī)則的聚類形式翼闽;

? ? ④ 重復(fù)性散點圖:展示組內(nèi)樣本的重復(fù)性情況。圖中偏離對角線的點越少洲炊,樣品間的相關(guān)性越高感局,重復(fù)性越好。

圖3 Omicsmart中樣本關(guān)系分析圖形

『4. PCA是什么暂衡?怎么看询微?』

答:主成分分析(Principal Component Analysis,PCA)是一種線性降維算法狂巢。用方差(Variance)來衡量數(shù)據(jù)的差異性撑毛,將高維數(shù)據(jù)用某幾個綜合指標來表示。將原本鑒定到的所有基因的表達量重新線性組合唧领,形成一組新的綜合變量藻雌,同時根據(jù)所分析的問題從中選取2-3個綜合變量雌续,使它們盡可能多地反映原有變量的信息,從而達到降維的目的胯杭。如PC1(Principal Component 1)和PC2(Principal Component 2)為降維后獲得的兩個主成分因子驯杜,可分別從數(shù)據(jù)差異性最大和次大的方向提取出來。

在樣本關(guān)系分析過程中做个,PCA可以讓我們非常直觀地看出各個樣本之間的相似性鸽心。關(guān)于轉(zhuǎn)錄組測序,我們可能獲得上萬個基因的表達信息居暖,那么利用PCA可將樣本所包含的上萬個維度的信息(上萬個基因的表達量)顽频,降維至某些維度的綜合指標(主成分)表示。一般選取PC1和PC2太闺,來解釋樣本間的重復(fù)性好壞與組間樣本的差異度冲九。如下圖PCA散點圖,組內(nèi)樣本呈現(xiàn)相互聚集跟束,說明組內(nèi)的重復(fù)性比較好莺奸。

圖4 Omicsmart在線報告PCA圖

Tips

在文章中,也會看到三維的PCA圖冀宴。這時選取了PC1灭贷,PC2,PC3去解釋樣本間的距離略贮。PC1+PC2(+PC3)越大甚疟,對方差解釋度越大,越具有說服力逃延。

『5. 相關(guān)性系數(shù)分析時览妖,相關(guān)系數(shù)達到多少可認為組內(nèi)重復(fù)性效果好?』

答:一般情況下揽祥,計算相關(guān)性系數(shù)時讽膏,對于生物學(xué)重復(fù)(如采樣時個體差異)之間的相關(guān)系數(shù)依據(jù)經(jīng)驗建議在0.7以上較好;對于技術(shù)重復(fù)(實驗操作拄丰、實驗儀器等)之間的相關(guān)系數(shù)依據(jù)項目經(jīng)驗來說在0.85以上比較合理府树。

Tips

關(guān)于相關(guān)系數(shù)如何計算,可能還存在不少的困惑料按。我們在這里也解釋一下奄侠。對于轉(zhuǎn)錄組數(shù)據(jù),可以利用樣本的表達譜來計算樣本間的相關(guān)性载矿,通過計算相關(guān)系數(shù)r來評估每組樣本的生物重復(fù)性垄潮。最常用的度量是Pearson和Spearman相關(guān)系數(shù)。

那么在實際分析中,這兩種計算方式應(yīng)該如何選擇呢弯洗?

我們首先簡單了解二者的區(qū)別甫题。對于Pearson相關(guān)系數(shù)很簡單,主要用來衡量兩個數(shù)據(jù)集的線性相關(guān)程度涂召。而Spearman相關(guān)系數(shù)它不關(guān)心兩個數(shù)據(jù)集是否線性相關(guān)坠非,所關(guān)注的是單調(diào)相關(guān)。所以Spearman相關(guān)系數(shù)也稱為等級相關(guān)或者秩相關(guān)(即rank)果正。從下圖中我們可以更好的理解炎码,如果對數(shù)據(jù)進行線性變換(y=ax+b;a≠0)秋泳,兩者相關(guān)系數(shù)的絕對值都不會發(fā)生變化(圖5 A)潦闲;如果對數(shù)據(jù)進行單調(diào)但不是線性的變換迫皱,比如最常見的log scale,Spearman相關(guān)系數(shù)的絕對值也不會發(fā)生變化[5](圖5 B)卓起。這時我們就可以知道,兩者的前提假設(shè)就不同戏阅,Pearson相關(guān)假設(shè)數(shù)據(jù)集在同一條直線上,而Spearman只要求單調(diào)遞增或者遞減奕筐,所以Pearson的統(tǒng)計效力一般情況下比Spearman要高舱痘。但是更重要的是芭逝,我們需要根據(jù)實際情況選擇正確的假設(shè)。比如渊胸,某個實驗做了3次生物學(xué)重復(fù),那有理由假設(shè)這3次重復(fù)線性相關(guān)蹬刷。而如果是一個基因和另一個受到調(diào)控的基因的表達水平瓢捉,或者某個基因順式作用元件的染色質(zhì)開放程度,和這個基因表達水平之間的關(guān)系就可能需要假設(shè)單調(diào)相關(guān)办成。

圖5 Pearson和Spearman相關(guān)系數(shù)

關(guān)于兩者的特點也有所不同,若想要深入學(xué)習(xí)二者的算法特征搂漠,可回顧往期文章《相關(guān)系數(shù)第一彈:哪哪都能看到的皮爾森相關(guān)》《相關(guān)系數(shù)第二彈:斯皮爾曼相關(guān)》迂卢,都有詳細的解釋喲。

6. PCA和相關(guān)系數(shù)的算法,哪個更能判斷樣本的重復(fù)性而克?為什么靶壮?』

答:相關(guān)系數(shù)。因為PCA為把對樣品貢獻大的信息保留员萍,所描述的是整體所有組的特征腾降;而相關(guān)系數(shù)直接呈現(xiàn)的是兩組樣品之間的相關(guān)程度。若相關(guān)系數(shù)越高碎绎,表明兩組樣品之間的相關(guān)程度越高螃壤,即重復(fù)性越好。

『7. 樣本離群了筋帖,還能用于分析嗎奸晴?』

答:首先判斷離群程度,若離群程度較小日麸,則可以嘗試設(shè)置閾值寄啼,縮小基因范圍,再次重新進行相關(guān)性分析判斷樣本是否離群代箭。若離群程度很大墩划,對后續(xù)差異分析的結(jié)果造成了很大的影響,那么可以考慮將該樣本剔除嗡综,再進行后續(xù)差異分析等等走诞。

Tips

轉(zhuǎn)錄組測序通常要求設(shè)置3個生物學(xué)重復(fù)樣本,如果樣本足夠多蛤高,建議比預(yù)期實驗設(shè)計多送1~2個樣本測序蚣旱,以便后續(xù)某個樣品與組內(nèi)其它樣本出現(xiàn)離群情況,直接剔除離群樣本戴陡,省時省力塞绿。若測序樣本較少,無法剔除樣本恤批,也可以考慮對同一批次的備份樣本再次測序异吻,后續(xù)再重新分析。

以上就是今天的關(guān)于樣本關(guān)系分析問題喜庞,在此也向廣大研究者征集相關(guān)問題诀浪,如有疑問,歡迎下方留言延都。或者也可登錄基迪奧OmicShare論壇求摇,搜索和討論更多相關(guān)知識。

論壇網(wǎng)址:

https://www.omicshare.com/forum/

▼參考文獻▼

[1] Robles, José A et al. Efficient experimental design and analysis strategies for the detection of differential expression using RNA-Sequencing. BMC genomics vol, 13 484. 17 Sep. 2012, doi:10.1186/1471-2164-13-484

[2] Hansen, K., Wu, Z., Irizarry, R. et al. Sequencing technology does not eliminate biological variability. Nat Biotechnol. 29, 572–573. 2011,?https://doi.org/10.1038/nbt.1910

[3] Todd E V, Black M A, Gemmell N J. The power and promise of RNA-seq in ecology and evolution[J]. Molecular ecology, 2016, 25(6): 1224-1241

[4] Liu Y, Zhou J, White K P. RNA-seq differential expression studies: more sequence or more replication?[J]. Bioinformatics, 2013, 30(3): 301-304

[5] Trost B, Moir CA, Gillespie ZE, et al. Concordance between RNA-sequencing data and DNA microarray data in transcriptome analysis of proliferative and quiescent fibroblasts. R Soc Open Sci. 2015, 2(9):150402. doi:10.1098/rsos.150402

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市摔刁,隨后出現(xiàn)的幾起案子共屈,更是在濱河造成了極大的恐慌,老刑警劉巖趁俊,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件暇务,死亡現(xiàn)場離奇詭異怔软,居然都是意外死亡,警方通過查閱死者的電腦和手機括改,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進店門嘱能,熙熙樓的掌柜王于貴愁眉苦臉地迎上來虱疏,“玉大人,你說我怎么就攤上這事对粪≈茫” “怎么了牍帚?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵履羞,是天一觀的道長忆首。 經(jīng)常有香客問我,道長糙及,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任唇聘,我火速辦了婚禮迟郎,結(jié)果婚禮上宪肖,老公的妹妹穿的比我還像新娘健爬。我一直安慰自己,他們只是感情好蜕衡,可當我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布慨仿。 她就那樣靜靜地躺著镰吆,像睡著了一般躲雅。 火紅的嫁衣襯著肌膚如雪相赁。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天唤衫,我揣著相機與錄音佳励,去河邊找鬼。 笑死妙黍,一個胖子當著我的面吹牛瞧剖,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播做粤,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼怕品,長吁一口氣:“原來是場噩夢啊……” “哼巾遭!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起迎罗,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤纹安,失蹤者是張志新(化名)和其女友劉穎厢岂,沒想到半個月后阳距,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年圃酵,在試婚紗的時候發(fā)現(xiàn)自己被綠了馍管。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片确沸。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖拉盾,靈堂內(nèi)的尸體忽然破棺而出坎匿,到底是詐尸還是另有隱情雷激,我是刑警寧澤屎暇,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布凶异,位于F島的核電站,受9級特大地震影響剩彬,放射性物質(zhì)發(fā)生泄漏喉恋。R本人自食惡果不足惜母廷,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一氓鄙、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧抖拦,春花似錦舷暮、人聲如沸脚牍。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽芹彬。三九已至舒帮,卻和暖如春玩郊,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背预茄。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工耻陕, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留诗宣,地道東北人想诅。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓裁眯,卻偏偏與公主長得像穿稳,于是被迫代替她去往敵國和親逢艘。 傳聞我的和親對象是個殘疾皇子骤菠,可洞房花燭夜當晚...
    茶點故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容