網(wǎng)絡(luò)藥理學(xué)所需的基因表達(dá)譜數(shù)據(jù)集來自各大數(shù)據(jù)庫来颤。對(duì)于骨科研究而言,GEO是最常用的數(shù)據(jù)庫之一输瓜。我們可以使用NCBI(https://www.ncbi.nlm.nih.gov/)檢索GEO數(shù)據(jù)庫嗅剖。只要選擇GEO DataSets字段根蟹,就可以在GEO中檢索各種基因表達(dá)譜數(shù)據(jù)集。
在檢索數(shù)據(jù)集時(shí)拷肌,我們需要對(duì)檢索結(jié)果進(jìn)行篩選到旦。就物種而言,首選人(Homo sapiens)巨缘,如果沒有人的數(shù)據(jù)集添忘,也可以選擇小鼠(Mus musculus)或大鼠(Rattus norvegicus)。就數(shù)據(jù)類型而言若锁,我們選擇探針矩陣搁骑,即在Study type中選中Expression profiling by array
。對(duì)于條目的類型(Entry type)又固,我們需要選擇Series
仲器。
篩選器 | 選項(xiàng) |
---|---|
Top Organisms | Homo sapiens |
Entry type | Series |
Study type | Expression profiling by array |
除此之外,由于我們要搜索的是疾病的差異基因(也就是在生理?xiàng)l件和病理?xiàng)l件下差異表達(dá)的基因)仰冠,因此我們應(yīng)該選擇健康與異常相互對(duì)照的數(shù)據(jù)集乏冀。很多數(shù)據(jù)集會(huì)對(duì)樣本施加各種條件,比如某藥物干預(yù)下基因表達(dá)的情況洋只,或某環(huán)境條件下與某疾病相關(guān)的基因表達(dá)的情況辆沦,這些數(shù)據(jù)集是不能使用的昼捍。要想了解某一數(shù)據(jù)集的具體處理?xiàng)l件,我們可以點(diǎn)擊相應(yīng)的條目肢扯,在Summary或Overall design中我們就可以看到該數(shù)據(jù)集的處理情況妒茬。
如果檢索結(jié)果過多,我們還可以進(jìn)行進(jìn)一步篩選蔚晨。在搜索框中加入關(guān)鍵字normal
可以增加檢索到不施加干預(yù)的記錄的可能性(即增加檢索到疾病條件與正常條件相對(duì)照的記錄的可能性)乍钻。此外樣品數(shù)量越大越好,對(duì)于生存分析而言蛛株,樣品數(shù)量應(yīng)大于100团赁;對(duì)于我們接下去進(jìn)行的差異分析,實(shí)驗(yàn)組和對(duì)照組的數(shù)量都要大于10(總數(shù)大于20)谨履。在檢索出的記錄的右下角可以找到樣本總數(shù)欢摄,點(diǎn)擊打開任一條目,在相應(yīng)頁面的Samples中可以看到樣本的詳細(xì)信息(如每種樣本各有幾例)笋粟,據(jù)此可以判斷是否符合我們的數(shù)量要求怀挠。