Boolean implication networks derived from large scale, whole genome microarray datasets
大規(guī)模全基因組基因芯片數(shù)據(jù)集中的布爾推斷網(wǎng)絡
Abstracts
We describe a method for extracting Boolean implications (if-then relationships) in very large amounts of gene expression microarray data. A meta-analysis of data from thousands of microarrays for humans, mice, and fruit flies finds millions of implication relationships between genes that would be missed by other methods. These relationships capture gender differences, tissue differences, development, and differentiation. New relationships are discovered that are preserved across all three species.?
????本文定義了一種方法变擒,用于提取大量基因表達數(shù)據(jù)中基因間的布倫邏輯關系凸克,這些關系可能在用其他方法分析時會丟失姨蟋。這些關系可以捕獲性別差異召噩,組織差異,發(fā)展和分化等该酗。有一些新的在多個物種間保守的關系也能夠通過這種方法被發(fā)現(xiàn)授药。
Introduction
????許多基因芯片的數(shù)據(jù)是公開的,可以通過挖掘獲得一定的見解呜魄。許多基于芯片挖掘的工作都構建了基因間兩兩關系的網(wǎng)絡悔叽,表明一些基因是共同表達的。本文提出一種新的方法耕赘,利用數(shù)千個微陣列數(shù)據(jù)來識別整個基因組中基因之間的更大范圍的關系骄蝇。該方法通過自動設定基因閾值,獲得兩個基因間的邏輯關系操骡,可能的關系有六種九火。Boolean implication network就是通過繪制量基因的散點圖和閾值獲得的圖形。普通的方法只能發(fā)現(xiàn)大數(shù)據(jù)集中的對稱性的關系册招,而Boolean implication network能發(fā)現(xiàn)更多岔激。
Materials and methods
Data collection and preprocessing 數(shù)據(jù)收集和處理
? 4787個Affymetrix U133 plus 2.0人的基因芯片cel文件,2154個小鼠的是掰,450個果蠅的cel文件通過GEO數(shù)據(jù)庫中獲得虑鼎。
? 使用內(nèi)存優(yōu)化的RMA算法進行標準化處理;
? 使用log2對所有表達值進行處理键痛;
? 使用stepMiner算法描述的方法進行閾值的計算炫彩,主要用的到是線性回歸的原理。簡單的說絮短,先將表達值按照從小到大進行排列江兢,然后使用stepMiner擬合一個上升的step。這種方法獲得一個從低到高的最大跳躍值(必須有足夠的觀測值才能避免其他干擾)丁频,這個位置就是閾值杉允。通過這個閾值邑贴,就將表達值分為低表達和高表達。
? 如果獲得的閾值是t叔磷,表達值大于t+0.5的定義為high拢驾,即高表達;小于t-0.5的定義為low改基,即低表達繁疤。而在這之間的值定義為intermediate,即中間值秕狰,在分析過程中是忽略的嵌洼。如果一個基因的三分之二的表達值都落在中間值范圍內(nèi),那么這個基因就被排除在分析的范圍之內(nèi)封恰。
Discovery of Boolean relationship
? 對于A和B兩個因子,存在6中可能的布爾關系褐啡,由四種boolean implication構成诺舔,A low-->B low, A low-->B high, A high-->B low和A high-->B high。這四種implication構成了散點圖的四個象限(中間值是忽略的)备畦。因為閾值總是合理的區(qū)分低表達和高表達值低飒,因此最多只有兩個象限是稀疏的。
? 當存在兩個稀疏象限時懂盐,A和B的關系為對稱關系褥赊,等效或者相反。其他情況只存在一個稀疏象限莉恼,有4中可能性:A low-->B low拌喉;A low-->B high; A high-->B low 以及A high--> B high。
? 認定一種implication必須滿足兩個條件:
????假定a00, a01, a10和a11分別代表四個象限俐银,0表示low尿背,1表示high;
????An implication is considered significant if the first statistic is greater than 3.0 and the error rate is less than 0.1.就是說捶惜,如果statistic>3田藐,同時error rate<0.1,這個implication被認為是顯著的吱七。
下圖為閾值設置和boolean implication的分析流程:
Results
Boolean implications are prevalent in gene expression microarray data/基因表達微陣列數(shù)據(jù)中普遍存在布爾推斷
? 基因表達值使用的是對數(shù)值(log2)汽久,所有的數(shù)據(jù)來源于同平臺的芯片。
? 每一個probset分別計算出一個閾值t踊餐,畫出表達值的散點圖景醇,根據(jù)基因A和B的閾值,將散點圖分為了4個象限市袖;通過統(tǒng)計分析存在一個或兩個稀疏象限時啡直,說明A和B之間存在Boolean implication烁涌。
? 存在四種不對稱關系和兩種對稱關系;
通過這種算法酒觅,計算出了非常多的implications撮执,如表1
? 在人的數(shù)據(jù)中可以看到舷丹,只有1%的關系是對稱的抒钱,不對稱的占了99%。
? 有很多high-->low implication的原因可能是基因表達的組織和細胞特異性颜凯。
另外一個有意思的現(xiàn)象是相同基因的不同探針谋币,出現(xiàn)的結果也是可能不相同的。
Boolean implications identify known biological properties and potentially new biological properties
? Boolean implication可以捕獲大量的已經(jīng)證明的生物學現(xiàn)象症概,可以顯示性別差異蕾额,發(fā)展,分化彼城,組織特異性和共表達等诅蝶。
Descriptions of data sources are consistent with the biology of the Boolean implications
數(shù)據(jù)源的描述與布爾推斷的生物學是一致的
Many Boolean relationships are highly conserved across multiple species
許多的boolean關系在不同種屬間是高度保守的
Boolean implication networks are more comprehensive than correlation-based networks
布爾推斷網(wǎng)絡比相關網(wǎng)絡更全面
Boolean implication networks are not scale free
Computing the Boolean implication network is fast and the output is transparent
????? 在2.4 Ghz、8gb內(nèi)存的計算機上構建人類數(shù)據(jù)集隱含網(wǎng)絡的總計算時間為2.5小時募壕。
(主要關注的點在于研究的方法是怎么樣的调炬,因此對于結果的后面部分沒有太在意,尤其是不同物種比較的內(nèi)容)
Conclusion
????布爾推斷提供了一種對基因組規(guī)模數(shù)據(jù)的透視圖舱馅,揭示了其他類型的分析所忽略的具有生物學意義的關系缰泡,這可能是因為這些方法尋找不同類型的關系,也可能是因為它們不能擴展到整個基因組水平代嗤。對3個不同物種的數(shù)千個陣列的元分析顯示了在數(shù)據(jù)中暴露生物信息的布爾推理的一些潛力棘钞。在meta分析中構建的隱含關系網(wǎng)絡中,隱含關系的數(shù)量幾乎是等價關系的100倍干毅。與性別和組織類型相關的差異很明顯武翎。僅在特定發(fā)育或分化階段活躍的基因之間的關系也很明顯。許多布爾關系在人類溶锭、老鼠和果蠅之間是守恒的宝恶。在細胞周期和cns特異性基因豐富的基因簇之間存在高度保守的關系。在MYC和核糖體基因之間保守的非對稱布爾暗示暗示網(wǎng)絡中存在生物學相關的調(diào)控關系趴捅〉姹校可以想象,布爾蘊涵網(wǎng)絡可以提供一個新的發(fā)現(xiàn)平臺拱绑,為進一步的實驗探索提供新的生物學假設综芥。即使使用大量的基因表達數(shù)據(jù),這些網(wǎng)絡也能被快速計算出來猎拨,而且輸出結果是易懂的膀藐,易于操作屠阻。布爾網(wǎng)絡可在布爾網(wǎng)絡網(wǎng)站上搜索。(鏈接http://gourd.stanford.edu/BooleanNet额各,但是本人網(wǎng)絡根本打不開国觉,不知道教育網(wǎng)是否能打開)
????理解布爾含義的局限性是很重要的。每一個推論在數(shù)據(jù)中都是經(jīng)驗觀察到的關系虾啦,這可能不適用于為不同組織類型或在不同條件下收集的數(shù)據(jù)麻诀。與相關網(wǎng)絡一樣,布爾推斷網(wǎng)絡也不能捕捉因果關系傲醉。事實上蝇闭,已知的轉(zhuǎn)錄因子及其靶標之間的調(diào)控關系往往沒有相應的含義。這是可以預料的硬毕,因為還有許多其他因素涉及基因調(diào)控呻引,但在基因表達數(shù)據(jù)中并不明顯,如蛋白質(zhì)激活吐咳、參與涉及多個蛋白質(zhì)的復合物苞七,以及對啟動子的組合調(diào)控。
????我們相信布爾推斷的最大潛力是與其他類型的數(shù)據(jù)和其他類型的分析相結合挪丢。例如,結合來自特定干擾的數(shù)據(jù)卢厂,如基因沉默或藥物治療乾蓬,以及結合轉(zhuǎn)錄因子結合關系,一些含義可以解釋為因果關系慎恒。此外任内,含義可以用來做對更復雜模型的搜索。例如融柬,只有當A高B低時死嗦,布爾關系“C高”才成立。
感想
????最初接觸到Boolean implication這個東西是在兩年多以前粒氧,是新英格蘭醫(yī)學雜志上的一篇文章(CDX2 as a Prognostic Biomarker in Stage II and Stage III Colon Cancer)越除。這篇文章使用這種方法找到了CDX2這個基因,并通過大量的數(shù)據(jù)分析得出了CDX2表達陰性可以鑒定出高風險的II期結腸癌患者外盯。
當時想摘盆,我是不是可以通過這種方法來找到我感興趣基因的Boolean implication,做一些有意思的事情饱苟。
????為了這個想法的實現(xiàn)孩擂,我花了大量的時間查找相關的背景知識,相關文獻箱熬。找到stepMiner這個軟件类垦,但是很長一段時間都不知道這個閾值是怎么計算出來的狈邑。從github上找到這個相關的項目,但是使用的是python語言寫的蚤认;然后在這期間米苹,我自學了一些python語言,發(fā)現(xiàn)自己還是搞不定烙懦;自學了R語言數(shù)據(jù)分析驱入,最后在另外一個人的github項目里面找到了關于這個閾值計算和稀疏象限的計算方法,基于R語言的氯析。終于把這兩個問題初步解決了亏较。這里面還有一個問題是關于FDR(false discovery rate)怎么計算的,還沒有完全搞明白掩缓。
????因為不懂不理解搞不定雪情,中間放下好幾次,對自己說封存一年你辣,如果覺得還是有意義巡通,再重新來找資料學。最終還只是明白大概舍哄。雖然目前還不能完整運行這個過程宴凉,但相比兩年多前的盲目抓瞎,以經(jīng)提高太多了表悬。感謝堅持的自己弥锄。
? ? 最后,我決定把這個寫下來蟆沫,一個是記錄一下自己的心得籽暇;二來是如果有人剛好也對這個感興趣,說不定可以好好交流交流饭庞。
? ? 關于閾值計算的原理戒悠,Sahoo D在這篇文章之前有說明,有時間把這個再整理一下舟山,可以把計算公式和R語言代碼一起寫绸狐,可能比較好理解和實現(xiàn)。
Ref:?
Sahoo D , Dill D L , Gentles A J , et al. Boolean implication networks derived from large scale, whole genome microarray datasets[J]. Genome biology, 2008, 9(10).