一、pyscenic的結(jié)果不可重復(fù)
最近在運(yùn)行pyscenic的結(jié)果的時(shí)候發(fā)現(xiàn)了兩次相同參數(shù)相同數(shù)據(jù)的結(jié)果存在不一致霜运,回溯發(fā)現(xiàn)scenic的第一步GRN的結(jié)果已經(jīng)出現(xiàn)了差異挑童,轉(zhuǎn)錄因子和目標(biāo)基因之間的importance發(fā)生了變化序六,同時(shí)整體的importance排序也已經(jīng)不一樣了,如下:
同樣的環(huán)境悠就、數(shù)據(jù)和腳本千绪,結(jié)果不一樣,就會(huì)懷疑是隨機(jī)因素導(dǎo)致的梗脾,雖然中文檢索沒有人解答荸型,但是在github,pyscenic的團(tuán)隊(duì)還是給出了解釋:
大概意思是運(yùn)行scenic第一個(gè)部分的GENIE3/GRNBoost本身就會(huì)存在隨機(jī)性炸茧,作者也是推薦大家為了保證的可靠性瑞妇,可以通過多次運(yùn)行取均值的方法來解決。
好梭冠,既然不是自己的問題辕狰,那就相當(dāng)于問題解決。不過控漠,其實(shí)仔細(xì)發(fā)現(xiàn)蔓倍,每一次運(yùn)行GRN結(jié)果雖然不一樣,但是差別不會(huì)說特別巨大盐捷,基本上顯著相關(guān)的基因都還是在的偶翅,只是具體的importance存在一些差異,但其實(shí)后面通過過濾碉渡,許多低質(zhì)量的GRN關(guān)系都會(huì)被過濾掉的倒堕,這也就是說為何許多高質(zhì)量文章的結(jié)果都能大概的復(fù)現(xiàn)出來,尤其是核心的結(jié)果還是比較靠譜的爆价。
二、關(guān)于運(yùn)行矩陣的要求
其實(shí)另一個(gè)比較困惑的問題就是媳搪,在運(yùn)行pyscenic或者scenic的時(shí)候铭段,到底用counts矩陣還是標(biāo)準(zhǔn)化處理之后的矩陣呢?這個(gè)帖子剛好提及到了秦爆,我也就順便總結(jié)一下序愚。
如果是單個(gè)數(shù)據(jù),答案肯定是最好用counts矩陣等限,這也是官方建議的爸吮,因?yàn)閟cenic內(nèi)部也會(huì)進(jìn)行相似的數(shù)據(jù)預(yù)處理芬膝,所以最好用最原始的counts矩陣粉楚,保留的生物學(xué)信息也最原始疹吃。
那么就會(huì)涉及到一個(gè)問題,如果我有多個(gè)樣本的數(shù)據(jù)呢甜橱?counts矩陣之間必然會(huì)存在批次效應(yīng)桐早,而這種樣本間的批次其實(shí)對(duì)相關(guān)性的判斷影響還蠻大的(當(dāng)然GRNBoost存在一定的魯棒性)癣缅,這個(gè)時(shí)候我是應(yīng)該繼續(xù)用counts還是用整合之后去除了批次效應(yīng)的表達(dá)矩陣呢?
hh官方的建議還是蠻中肯的 yes or no哄酝,他回答or友存。建議大家不要用整合的數(shù)據(jù)(存在大批次效應(yīng)的數(shù)據(jù))一次性地去做scenic,最好是一個(gè)個(gè)樣本跑陶衅,最后取交集/均值屡立,從源頭解決問題。當(dāng)然搀军,他也承認(rèn)膨俐,如果非要用整合的樣本,適當(dāng)?shù)男?zhǔn)批次效應(yīng)也是可以的(例如Seurat的SCTranform)奕巍,但對(duì)結(jié)果肯定會(huì)有一定的影響吟策。同時(shí),其實(shí)我們其實(shí)可以自己嘗試一下的止,整合樣本的counts/處理后的矩陣/各個(gè)樣本單獨(dú)運(yùn)行的結(jié)果檩坚,三種情況做一個(gè)綜合考慮,才最合理诅福。(其實(shí)基本上匾委,按我個(gè)人的經(jīng)驗(yàn)來說,如果只選top的話氓润,應(yīng)該都大差不差赂乐,因?yàn)轱@著的永遠(yuǎn)是最突出的,但如果要focus細(xì)微差異的基因的話咖气,大家就需要嚴(yán)謹(jǐn)且謹(jǐn)慎對(duì)待自己的分析結(jié)論了挨措。)
總而言之,本身基因網(wǎng)絡(luò)分析GRN的結(jié)果就是挺玄學(xué)的崩溪,受到諸多因素的影響浅役,所以大家可以結(jié)合其他結(jié)論,例如文獻(xiàn)和實(shí)驗(yàn)來確保最終結(jié)果是可靠的伶唯,大膽分析小心驗(yàn)證即可觉既。