讀文獻-大規(guī)模全基因組基因芯片數(shù)據(jù)集中的布爾推斷網(wǎng)絡

Boolean implication networks derived from large scale, whole genome microarray datasets

大規(guī)模全基因組基因芯片數(shù)據(jù)集中的布爾推斷網(wǎng)絡

Abstracts

We describe a method for extracting Boolean implications (if-then relationships) in very large amounts of gene expression microarray data. A meta-analysis of data from thousands of microarrays for humans, mice, and fruit flies finds millions of implication relationships between genes that would be missed by other methods. These relationships capture gender differences, tissue differences, development, and differentiation. New relationships are discovered that are preserved across all three species.?

????本文定義了一種方法变擒，用于提取大量基因表達數(shù)據(jù)中基因間的布倫邏輯關系凸克，這些關系可能在用其他方法分析時會丟失姨蟋。這些關系可以捕獲性別差異召噩，組織差異，發(fā)展和分化等该酗。有一些新的在多個物種間保守的關系也能夠通過這種方法被發(fā)現(xiàn)授药。

Introduction

????許多基因芯片的數(shù)據(jù)是公開的，可以通過挖掘獲得一定的見解呜魄。許多基于芯片挖掘的工作都構建了基因間兩兩關系的網(wǎng)絡悔叽，表明一些基因是共同表達的。本文提出一種新的方法耕赘，利用數(shù)千個微陣列數(shù)據(jù)來識別整個基因組中基因之間的更大范圍的關系骄蝇。該方法通過自動設定基因閾值，獲得兩個基因間的邏輯關系操骡，可能的關系有六種九火。Boolean implication network就是通過繪制量基因的散點圖和閾值獲得的圖形。普通的方法只能發(fā)現(xiàn)大數(shù)據(jù)集中的對稱性的關系册招，而Boolean implication network能發(fā)現(xiàn)更多岔激。

Materials and methods

Data collection and preprocessing 數(shù)據(jù)收集和處理

? 4787個Affymetrix U133 plus 2.0人的基因芯片cel文件，2154個小鼠的是掰，450個果蠅的cel文件通過GEO數(shù)據(jù)庫中獲得虑鼎。

? 使用內(nèi)存優(yōu)化的RMA算法進行標準化處理；

? 使用log2對所有表達值進行處理键痛；

? 使用stepMiner算法描述的方法進行閾值的計算炫彩，主要用的到是線性回歸的原理。簡單的說絮短，先將表達值按照從小到大進行排列江兢，然后使用stepMiner擬合一個上升的step。這種方法獲得一個從低到高的最大跳躍值（必須有足夠的觀測值才能避免其他干擾）丁频，這個位置就是閾值杉允。通過這個閾值邑贴，就將表達值分為低表達和高表達。

? 如果獲得的閾值是t叔磷，表達值大于t+0.5的定義為high拢驾，即高表達；小于t-0.5的定義為low改基，即低表達繁疤。而在這之間的值定義為intermediate，即中間值秕狰，在分析過程中是忽略的嵌洼。如果一個基因的三分之二的表達值都落在中間值范圍內(nèi)，那么這個基因就被排除在分析的范圍之內(nèi)封恰。

Discovery of Boolean relationship

? 對于A和B兩個因子，存在6中可能的布爾關系褐啡，由四種boolean implication構成诺舔，A low-->B low, A low-->B high, A high-->B low和A high-->B high。這四種implication構成了散點圖的四個象限（中間值是忽略的）备畦。因為閾值總是合理的區(qū)分低表達和高表達值低飒，因此最多只有兩個象限是稀疏的。

? 當存在兩個稀疏象限時懂盐，A和B的關系為對稱關系褥赊，等效或者相反。其他情況只存在一個稀疏象限莉恼，有4中可能性：A low-->B low拌喉；A low-->B high; A high-->B low 以及A high--> B high。

? 認定一種implication必須滿足兩個條件：

????假定a00, a01, a10和a11分別代表四個象限俐银，0表示low尿背，1表示high；

稀疏象限的統(tǒng)計檢驗

????An implication is considered significant if the first statistic is greater than 3.0 and the error rate is less than 0.1.就是說捶惜，如果statistic>3田藐，同時error rate<0.1，這個implication被認為是顯著的吱七。

下圖為閾值設置和boolean implication的分析流程：

booelan implication 分析流程

Results

Boolean implications are prevalent in gene expression microarray data/基因表達微陣列數(shù)據(jù)中普遍存在布爾推斷

? 基因表達值使用的是對數(shù)值（log2）汽久，所有的數(shù)據(jù)來源于同平臺的芯片。

? 每一個probset分別計算出一個閾值t踊餐，畫出表達值的散點圖景醇，根據(jù)基因A和B的閾值，將散點圖分為了4個象限市袖；通過統(tǒng)計分析存在一個或兩個稀疏象限時啡直，說明A和B之間存在Boolean implication烁涌。

? 存在四種不對稱關系和兩種對稱關系；

六種不同的Boolean implication的散點圖

通過這種算法酒觅，計算出了非常多的implications撮执，如表1

Boolean relationship in human，mouse and fruit fly datasets

? 在人的數(shù)據(jù)中可以看到舷丹，只有1%的關系是對稱的抒钱，不對稱的占了99%。

? 有很多high-->low implication的原因可能是基因表達的組織和細胞特異性颜凯。

另外一個有意思的現(xiàn)象是相同基因的不同探針谋币，出現(xiàn)的結果也是可能不相同的。

Boolean implications identify known biological properties and potentially new biological properties

? Boolean implication可以捕獲大量的已經(jīng)證明的生物學現(xiàn)象症概，可以顯示性別差異蕾额，發(fā)展，分化彼城，組織特異性和共表達等诅蝶。

Descriptions of data sources are consistent with the biology of the Boolean implications

數(shù)據(jù)源的描述與布爾推斷的生物學是一致的

Many Boolean relationships are highly conserved across multiple species

許多的boolean關系在不同種屬間是高度保守的

Boolean implication networks are more comprehensive than correlation-based networks

布爾推斷網(wǎng)絡比相關網(wǎng)絡更全面

Boolean implication networks are not scale free

Computing the Boolean implication network is fast and the output is transparent

????? 在2.4 Ghz、8gb內(nèi)存的計算機上構建人類數(shù)據(jù)集隱含網(wǎng)絡的總計算時間為2.5小時募壕。

（主要關注的點在于研究的方法是怎么樣的调炬，因此對于結果的后面部分沒有太在意，尤其是不同物種比較的內(nèi)容）

Conclusion

????布爾推斷提供了一種對基因組規(guī)模數(shù)據(jù)的透視圖舱馅，揭示了其他類型的分析所忽略的具有生物學意義的關系缰泡，這可能是因為這些方法尋找不同類型的關系，也可能是因為它們不能擴展到整個基因組水平代嗤。對3個不同物種的數(shù)千個陣列的元分析顯示了在數(shù)據(jù)中暴露生物信息的布爾推理的一些潛力棘钞。在meta分析中構建的隱含關系網(wǎng)絡中，隱含關系的數(shù)量幾乎是等價關系的100倍干毅。與性別和組織類型相關的差異很明顯武翎。僅在特定發(fā)育或分化階段活躍的基因之間的關系也很明顯。許多布爾關系在人類溶锭、老鼠和果蠅之間是守恒的宝恶。在細胞周期和cns特異性基因豐富的基因簇之間存在高度保守的關系。在MYC和核糖體基因之間保守的非對稱布爾暗示暗示網(wǎng)絡中存在生物學相關的調(diào)控關系趴捅〉姹校可以想象，布爾蘊涵網(wǎng)絡可以提供一個新的發(fā)現(xiàn)平臺拱绑，為進一步的實驗探索提供新的生物學假設综芥。即使使用大量的基因表達數(shù)據(jù)，這些網(wǎng)絡也能被快速計算出來猎拨，而且輸出結果是易懂的膀藐，易于操作屠阻。布爾網(wǎng)絡可在布爾網(wǎng)絡網(wǎng)站上搜索。（鏈接http://gourd.stanford.edu/BooleanNet额各，但是本人網(wǎng)絡根本打不開国觉，不知道教育網(wǎng)是否能打開）

????理解布爾含義的局限性是很重要的。每一個推論在數(shù)據(jù)中都是經(jīng)驗觀察到的關系虾啦，這可能不適用于為不同組織類型或在不同條件下收集的數(shù)據(jù)麻诀。與相關網(wǎng)絡一樣，布爾推斷網(wǎng)絡也不能捕捉因果關系傲醉。事實上蝇闭，已知的轉(zhuǎn)錄因子及其靶標之間的調(diào)控關系往往沒有相應的含義。這是可以預料的硬毕，因為還有許多其他因素涉及基因調(diào)控呻引，但在基因表達數(shù)據(jù)中并不明顯，如蛋白質(zhì)激活吐咳、參與涉及多個蛋白質(zhì)的復合物苞七，以及對啟動子的組合調(diào)控。

????我們相信布爾推斷的最大潛力是與其他類型的數(shù)據(jù)和其他類型的分析相結合挪丢。例如，結合來自特定干擾的數(shù)據(jù)卢厂，如基因沉默或藥物治療乾蓬，以及結合轉(zhuǎn)錄因子結合關系，一些含義可以解釋為因果關系慎恒。此外任内，含義可以用來做對更復雜模型的搜索。例如融柬，只有當A高B低時死嗦，布爾關系“C高”才成立。

感想

????最初接觸到Boolean implication這個東西是在兩年多以前粒氧，是新英格蘭醫(yī)學雜志上的一篇文章（CDX2 as a Prognostic Biomarker in Stage II and Stage III Colon Cancer）越除。這篇文章使用這種方法找到了CDX2這個基因，并通過大量的數(shù)據(jù)分析得出了CDX2表達陰性可以鑒定出高風險的II期結腸癌患者外盯。

CDX2 分析的流程圖

當時想摘盆，我是不是可以通過這種方法來找到我感興趣基因的Boolean implication，做一些有意思的事情饱苟。

????為了這個想法的實現(xiàn)孩擂，我花了大量的時間查找相關的背景知識，相關文獻箱熬。找到stepMiner這個軟件类垦，但是很長一段時間都不知道這個閾值是怎么計算出來的狈邑。從github上找到這個相關的項目，但是使用的是python語言寫的蚤认；然后在這期間米苹，我自學了一些python語言，發(fā)現(xiàn)自己還是搞不定烙懦；自學了R語言數(shù)據(jù)分析驱入，最后在另外一個人的github項目里面找到了關于這個閾值計算和稀疏象限的計算方法，基于R語言的氯析。終于把這兩個問題初步解決了亏较。這里面還有一個問題是關于FDR（false discovery rate）怎么計算的，還沒有完全搞明白掩缓。

????因為不懂不理解搞不定雪情，中間放下好幾次，對自己說封存一年你辣，如果覺得還是有意義巡通，再重新來找資料學。最終還只是明白大概舍哄。雖然目前還不能完整運行這個過程宴凉，但相比兩年多前的盲目抓瞎，以經(jīng)提高太多了表悬。感謝堅持的自己弥锄。

? ? 最后，我決定把這個寫下來蟆沫，一個是記錄一下自己的心得籽暇；二來是如果有人剛好也對這個感興趣，說不定可以好好交流交流饭庞。

? ? 關于閾值計算的原理戒悠，Sahoo D在這篇文章之前有說明，有時間把這個再整理一下舟山，可以把計算公式和R語言代碼一起寫绸狐，可能比較好理解和實現(xiàn)。

Ref:?

Sahoo D , Dill D L , Gentles A J , et al. Boolean implication networks derived from large scale, whole genome microarray datasets[J]. Genome biology, 2008, 9(10).

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末累盗，一起剝皮案震驚了整個濱河市六孵，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌幅骄，老刑警劉巖劫窒，帶你破解...
沈念sama閱讀 216,591評論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異拆座，居然都是意外死亡主巍，警方通過查閱死者的電腦和手機冠息，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,448評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來孕索，“玉大人逛艰，你說我怎么就攤上這事「阈瘢” “怎么了散怖？”我有些...
開封第一講書人閱讀 162,823評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長肄渗。經(jīng)常有香客問我镇眷，道長，這世上最難降的妖魔是什么翎嫡？我笑而不...
開封第一講書人閱讀 58,204評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任欠动，我火速辦了婚禮，結果婚禮上惑申，老公的妹妹穿的比我還像新娘具伍。我一直安慰自己，他們只是感情好圈驼，可當我...
茶點故事閱讀 67,228評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布人芽。她就那樣靜靜地躺著，像睡著了一般绩脆。火紅的嫁衣襯著肌膚如雪萤厅。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,190評論 1贊 299
城市分裂傳說
那天衙伶，我揣著相機與錄音，去河邊找鬼害碾。笑死矢劲，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的慌随。我是一名探鬼主播芬沉，決...
沈念sama閱讀 40,078評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼阁猜！你這毒婦竟也來了丸逸？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 38,923評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤剃袍，失蹤者是張志新（化名）和其女友劉穎黄刚，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體民效，經(jīng)...
沈念sama閱讀 45,334評論 1贊 310
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡憔维，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,550評論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年涛救，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片业扒。...
茶點故事閱讀 39,727評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡检吆，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出程储，到底是詐尸還是另有隱情蹭沛，我是刑警寧澤，帶...
沈念sama閱讀 35,428評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布章鲤，位于F島的核電站摊灭，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏咏窿。R本人自食惡果不足惜斟或，卻給世界環(huán)境...
茶點故事閱讀 41,022評論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望集嵌。院中可真熱鬧萝挤，春花似錦、人聲如沸根欧。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,672評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽凤粗。三九已至酥泛，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間嫌拣，已是汗流浹背柔袁。一陣腳步聲響...
開封第一講書人閱讀 32,826評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留异逐，地道東北人捶索。一個月前我還...
沈念sama閱讀 47,734評論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長得像灰瞻，于是被迫代替她去往敵國和親腥例。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,619評論 2贊 354