往期文章鏈接
如何從GEO數(shù)據(jù)庫(kù)下載數(shù)據(jù)
前述文章里,我們講到蹄皱,如何從GEO數(shù)據(jù)庫(kù)中找尋自己想要的數(shù)據(jù)集芯肤。
那么本篇推文里,小編帶大家一起動(dòng)手處理已下載好的數(shù)據(jù)集压鉴,將其轉(zhuǎn)換成數(shù)據(jù)分析軟件能夠識(shí)別的信息油吭,之后就可以制作出精美的分析圖歌豺,開始妙手著文章了馒铃。
之前的內(nèi)容里提到区宇,不是所有數(shù)據(jù)集都同時(shí)滿足?“既有差異表達(dá)基因,又有生存數(shù)據(jù)在內(nèi)的臨床特征信息”?這兩個(gè)條件值戳。
因此在一般情況下卧晓,我們可以先尋找符合其中一個(gè)條件的數(shù)據(jù)集,下載里面的GPL文件和表達(dá)矩陣“series matrix”做表達(dá)分析螟炫;
再尋找另外一個(gè)包含樣本生存數(shù)據(jù)的臨床特征數(shù)據(jù)集掸屡,做生存分析碗淌。
處理這兩個(gè)數(shù)據(jù)集的方法步驟基本一致,因此,本文將著重講解如何生成差異表達(dá)分析所用的基因表達(dá)譜宫峦。
學(xué)會(huì)了相關(guān)操作以后,大家可以練習(xí)如何生成生存分析所用的臨床特征信息表格诵次。
熟能生巧枚碗,剛開始也許會(huì)慢一些怨规,不過(guò)只要耐心多加練習(xí)壳坪,用不了多久就能玩轉(zhuǎn)數(shù)據(jù)啦。
接下來(lái),小編為大家演示操作——“如何得到差異表達(dá)分析所用的基因表達(dá)譜”发框。
上篇公眾號(hào)推文“如何從GEO數(shù)據(jù)庫(kù)下載數(shù)據(jù)”里仿野,我們選中了包含有正常組織和腫瘤組織的犁河、與肺癌相關(guān)的基因表達(dá)數(shù)據(jù)集GSE85841鳖枕,得到了(1)表達(dá)矩陣“series matrix”文件和(2)GPL平臺(tái)注釋文件魄梯。
此時(shí)下載的為txt文本格式的數(shù)據(jù)集,需右鍵→打開方式→用excel打開宾符,或者直接將txt文本拖到已經(jīng)打開的excel表格中酿秸。
步驟1
首先打開GPL文件。
GPL文件中魏烫,我們所要提取的信息只有兩列辣苏。
列1為基因的探針I(yè)D編號(hào),列2為我們熟知的基因名哄褒。
一個(gè)基因探針I(yè)D編號(hào)對(duì)應(yīng)一個(gè)基因名(有時(shí)基因名會(huì)缺失)稀蟋。
找到這兩列后,接下來(lái)到矩陣文件表格(series matrix)里新建一個(gè)子表格呐赡,將上述兩列內(nèi)容復(fù)制到其中退客,方便后續(xù)統(tǒng)一在一個(gè)excel文檔中操作。
步驟2
關(guān)閉GPL注釋文件表格链嘀,下述步驟集中在矩陣文件表格(series matrix)里操作萌狂。
首先提取矩陣文件表格里所能用到的臨床信息,以及相應(yīng)的GSM樣本編號(hào)怀泊。
這個(gè)表格里所能用到的臨床特征信息僅有組織類型(腫瘤組織或正常組織)茫藏。
理想情況下,還包含有年齡霹琼、生存時(shí)間务傲、種族、性別等數(shù)據(jù)枣申。
同樣新建一個(gè)子表格树灶,將上述兩行內(nèi)容復(fù)制進(jìn)去。
因?yàn)樵瓋?nèi)容為橫向排列糯而,因此在粘貼的時(shí)候天通,需選擇“轉(zhuǎn)置”,將其轉(zhuǎn)為豎向排列熄驼。
步驟3
接下來(lái)開始根據(jù)矩陣文件表格以及Gene Symbol表格里共有的探針I(yè)D元素像寒,匹配基因名。
匹配原理與之前在 “如何從cBioPortal數(shù)據(jù)庫(kù)下載數(shù)據(jù)” 相關(guān)推文里講述的一致瓜贾。
即以矩陣文件表格為基準(zhǔn)诺祸,以共同元素探針I(yè)D號(hào)為精準(zhǔn)匹配條件,將gene symbol子表格整合到矩陣文件表格中祭芦。
(1) 在矩陣文件表格的探針I(yè)D右側(cè)插入列筷笨,以便放置提取的gene symbol名。
(2)選中預(yù)放置gene symbol那一列的初始欄,插入VLOOKUP函數(shù)胃夏。(注意是數(shù)值的初始欄轴或,列標(biāo)題的位置需空出)
(3)填寫數(shù)值。
1處填寫的是需要用哪一欄作為匹配的基準(zhǔn)條件(即兩個(gè)表格的共同元素)仰禀。
本數(shù)據(jù)是用共同的探針I(yè)D編號(hào)作為匹配條件照雁,因此此處選擇A2,用鼠標(biāo)點(diǎn)擊A2格或者直接輸入A2均可答恶;
2處填寫的是匹配數(shù)據(jù)所需要的查找范圍饺蚊。本文是要通過(guò)探針I(yè)D查找gene symbol子表格中的基因名,因此點(diǎn)擊gene symbol子表格悬嗓,選中探針 ID列和基因名的兩列表格(如下圖)污呼。此時(shí)函數(shù)中會(huì)自動(dòng)填寫剛剛所選擇的范圍,即子表格gene symbol中的A包竹、B兩列曙求。
3處需要填寫的是,需要提取到矩陣文件表格的數(shù)據(jù)在步驟2已選擇范圍中的哪一列映企。本文需要提取的基因名數(shù)據(jù)在第2列悟狱,因此此處填寫2即可;
4處需要定義的是精確匹配(0)還是模糊匹配(1)堰氓。本文需要精確匹配挤渐,將兩個(gè)表格中探針I(yè)D完全一致的基因名提取到矩陣文件表格,因此此處填寫0双絮。
(4)點(diǎn)擊確定之后浴麻,已經(jīng)匹配到第一個(gè)探針I(yè)D的基因名。
雙擊該框右下角處囤攀,該列所有數(shù)據(jù)都會(huì)自動(dòng)生成软免。顯示為0的,意為在Gene symbol子表格里沒有查詢到矩陣文件表格中該探針I(yè)D的基因名焚挠。
生成數(shù)據(jù)之后膏萧,此列數(shù)據(jù)為帶格式數(shù)據(jù),在移動(dòng)整理的過(guò)程中可能會(huì)出現(xiàn)格式錯(cuò)誤蝌衔,建議將該列數(shù)據(jù)復(fù)制榛泛,在旁插入新的一列,以純文本格式粘貼到新生成的列中使用噩斟。
之后可將1曹锨、2列刪除。
(5)接下來(lái)就可以篩選感興趣基因的表達(dá)值了剃允。
選中基因名所在列沛简,點(diǎn)擊1處進(jìn)入篩選狀態(tài)齐鲤,點(diǎn)擊2處下拉框后輸入目標(biāo)基因。
本例以基因NCAN為例椒楣,進(jìn)行篩選给郊。得到NCAN在不同樣本中的基因表達(dá)值。
新建一個(gè)子表格撒顿,將上述兩行內(nèi)容復(fù)制到其中丑罪。
其為橫向排列荚板,同樣需要“轉(zhuǎn)置”粘貼凤壁。
步驟4
接下來(lái),在步驟2中生成的臨床信息子表格中跪另,根據(jù)樣本GSM編號(hào)進(jìn)行第二次數(shù)據(jù)匹配拧抖。
目的是將NCAN在不同樣本中的基因表達(dá)值,整合到臨床數(shù)據(jù)表格中免绿。
(1)選中預(yù)放置NCAN基因表達(dá)值那一列的初始欄唧席,插入VLOOKUP函數(shù)。(列標(biāo)題的位置同樣需空出)
(2)輸入數(shù)值嘲驾。
1處填寫的是需要用哪一欄作為匹配的基準(zhǔn)條件(即兩個(gè)表格的共同元素)淌哟。
本數(shù)據(jù)是用兩個(gè)子表格中共同的樣本GSM編號(hào)作為匹配條件,因此此處選擇A2辽故,用鼠標(biāo)點(diǎn)擊A2格或者直接輸入A2均可徒仓;
2處填寫的是匹配數(shù)據(jù)所需要的查找范圍。本文是要通過(guò)GSM編號(hào)查找基因表達(dá)譜子表格中的NCAN表達(dá)值誊垢,因此點(diǎn)擊基因表達(dá)譜子表格掉弛,選中GSM編號(hào)和基因表達(dá)值的兩列表格(如下圖)。此時(shí)函數(shù)中會(huì)自動(dòng)填寫剛剛所選擇的范圍喂走,即基因表達(dá)譜子表格中的A殃饿、B兩列。
3處需要填寫的是芋肠,需要提取到臨床數(shù)據(jù)表格的值在步驟2已選擇范圍中的哪一列乎芳。本文需要提取的基因表達(dá)值數(shù)據(jù)在第2列,因此此處填寫2即可帖池;
4處需要定義的是精確匹配(0)還是模糊匹配(1)秒咐。本文需要精確匹配,因此此處填寫0碘裕。
(4)點(diǎn)擊確定之后携取,已經(jīng)在臨床數(shù)據(jù)子表格中,匹配到第一個(gè)GSM編號(hào)的基因表達(dá)值帮孔。
雙擊該框右下角處雷滋,該列所有數(shù)據(jù)都會(huì)自動(dòng)生成不撑。(該操作有時(shí)會(huì)失效,如果雙擊無(wú)反應(yīng)晤斩,需要手動(dòng)下拉表格邊框焕檬,將數(shù)據(jù)生成到該列所有對(duì)應(yīng)欄)
需要注意的是,一般情況下澳泵,臨床數(shù)據(jù)表格里的GSM編號(hào)排列順序與基因表達(dá)譜表格里的GSM編號(hào)排列順序是一致的实愚。此處進(jìn)行第二次匹配,只是為了再次確保數(shù)據(jù)的一一對(duì)應(yīng)性兔辅。
步驟5
至此腊敲,我們得到的就是一個(gè)含有GSM樣本編號(hào)、目標(biāo)基因在各個(gè)GSM樣本的差異表達(dá)情況维苔、含有樣本臨床數(shù)據(jù)的總表碰辅。
接下來(lái)就可以用它做相應(yīng)的分析、制作結(jié)果圖啦介时。
小編開頭還提到另一個(gè)數(shù)據(jù)集没宾,包含了樣本生存信息、生存狀態(tài)等臨床特征數(shù)據(jù)沸柔,可以用來(lái)做生存分析循衰。
從GEO數(shù)據(jù)庫(kù)中下載此數(shù)據(jù)集后,同樣也需要對(duì)表格其進(jìn)行合并處理褐澎。
合并步驟與本文講解內(nèi)容一致会钝。
最終我們得到的,即為一個(gè)含有樣本生存數(shù)據(jù)等臨床信息乱凿、目標(biāo)基因在各個(gè)樣本中的表達(dá)情況總表顽素。
大家可以將此當(dāng)作練習(xí),既學(xué)習(xí)了處理不同內(nèi)容的表格徒蟆,同時(shí)也復(fù)習(xí)了本課所講的內(nèi)容胁出。