通過(guò)5步飞袋,學(xué)會(huì)處理從GEO數(shù)據(jù)庫(kù)下載的數(shù)據(jù)集链患,做出精美結(jié)果圖

往期文章鏈接

如何從GEO數(shù)據(jù)庫(kù)下載數(shù)據(jù)

前述文章里,我們講到蹄皱,如何從GEO數(shù)據(jù)庫(kù)中找尋自己想要的數(shù)據(jù)集芯肤。

那么本篇推文里,小編帶大家一起動(dòng)手處理已下載好的數(shù)據(jù)集压鉴,將其轉(zhuǎn)換成數(shù)據(jù)分析軟件能夠識(shí)別的信息油吭,之后就可以制作出精美的分析圖歌豺,開始妙手著文章了馒铃。

之前的內(nèi)容里提到区宇,不是所有數(shù)據(jù)集都同時(shí)滿足?既有差異表達(dá)基因,又有生存數(shù)據(jù)在內(nèi)的臨床特征信息”?這兩個(gè)條件值戳。

因此在一般情況下卧晓,我們可以先尋找符合其中一個(gè)條件的數(shù)據(jù)集,下載里面的GPL文件和表達(dá)矩陣“series matrix”做表達(dá)分析螟炫;

再尋找另外一個(gè)包含樣本生存數(shù)據(jù)的臨床特征數(shù)據(jù)集掸屡,做生存分析碗淌。

處理這兩個(gè)數(shù)據(jù)集的方法步驟基本一致,因此,本文將著重講解如何生成差異表達(dá)分析所用的基因表達(dá)譜宫峦。

學(xué)會(huì)了相關(guān)操作以后,大家可以練習(xí)如何生成生存分析所用的臨床特征信息表格诵次。

熟能生巧枚碗,剛開始也許會(huì)慢一些怨规,不過(guò)只要耐心多加練習(xí)壳坪,用不了多久就能玩轉(zhuǎn)數(shù)據(jù)啦。

接下來(lái),小編為大家演示操作——“如何得到差異表達(dá)分析所用的基因表達(dá)譜”发框。

上篇公眾號(hào)推文“如何從GEO數(shù)據(jù)庫(kù)下載數(shù)據(jù)”里仿野,我們選中了包含有正常組織和腫瘤組織的犁河、與肺癌相關(guān)的基因表達(dá)數(shù)據(jù)集GSE85841鳖枕,得到了(1)表達(dá)矩陣“series matrix”文件和(2)GPL平臺(tái)注釋文件魄梯。

此時(shí)下載的為txt文本格式的數(shù)據(jù)集,需右鍵→打開方式→用excel打開宾符,或者直接將txt文本拖到已經(jīng)打開的excel表格中酿秸。

步驟1

首先打開GPL文件。

GPL文件中魏烫,我們所要提取的信息只有兩列辣苏。

列1為基因的探針I(yè)D編號(hào),列2為我們熟知的基因名哄褒。

一個(gè)基因探針I(yè)D編號(hào)對(duì)應(yīng)一個(gè)基因名(有時(shí)基因名會(huì)缺失)稀蟋。

找到這兩列后,接下來(lái)到矩陣文件表格(series matrix)里新建一個(gè)子表格呐赡,將上述兩列內(nèi)容復(fù)制到其中退客,方便后續(xù)統(tǒng)一在一個(gè)excel文檔中操作。


步驟2

關(guān)閉GPL注釋文件表格链嘀,下述步驟集中在矩陣文件表格(series matrix)里操作萌狂。

首先提取矩陣文件表格里所能用到的臨床信息,以及相應(yīng)的GSM樣本編號(hào)怀泊。

這個(gè)表格里所能用到的臨床特征信息僅有組織類型(腫瘤組織或正常組織)茫藏。

理想情況下,還包含有年齡霹琼、生存時(shí)間务傲、種族、性別等數(shù)據(jù)枣申。

同樣新建一個(gè)子表格树灶,將上述兩行內(nèi)容復(fù)制進(jìn)去。

因?yàn)樵瓋?nèi)容為橫向排列糯而,因此在粘貼的時(shí)候天通,需選擇“轉(zhuǎn)置”,將其轉(zhuǎn)為豎向排列熄驼。

步驟3

接下來(lái)開始根據(jù)矩陣文件表格以及Gene Symbol表格里共有的探針I(yè)D元素像寒,匹配基因名。

匹配原理與之前在 “如何從cBioPortal數(shù)據(jù)庫(kù)下載數(shù)據(jù)” 相關(guān)推文里講述的一致瓜贾。

即以矩陣文件表格為基準(zhǔn)诺祸,以共同元素探針I(yè)D號(hào)為精準(zhǔn)匹配條件,將gene symbol子表格整合到矩陣文件表格中祭芦。

(1) 在矩陣文件表格的探針I(yè)D右側(cè)插入列筷笨,以便放置提取的gene symbol名。

(2)選中預(yù)放置gene symbol那一列的初始欄,插入VLOOKUP函數(shù)胃夏。(注意是數(shù)值的初始欄轴或,列標(biāo)題的位置需空出)

(3)填寫數(shù)值。

1處填寫的是需要用哪一欄作為匹配的基準(zhǔn)條件(即兩個(gè)表格的共同元素)仰禀。

本數(shù)據(jù)是用共同的探針I(yè)D編號(hào)作為匹配條件照雁,因此此處選擇A2,用鼠標(biāo)點(diǎn)擊A2格或者直接輸入A2均可答恶;

2處填寫的是匹配數(shù)據(jù)所需要的查找范圍饺蚊。本文是要通過(guò)探針I(yè)D查找gene symbol子表格中的基因名,因此點(diǎn)擊gene symbol子表格悬嗓,選中探針 ID列和基因名的兩列表格(如下圖)污呼。此時(shí)函數(shù)中會(huì)自動(dòng)填寫剛剛所選擇的范圍,即子表格gene symbol中的A包竹、B兩列曙求。

3處需要填寫的是,需要提取到矩陣文件表格的數(shù)據(jù)在步驟2已選擇范圍中的哪一列映企。本文需要提取的基因名數(shù)據(jù)在第2列悟狱,因此此處填寫2即可;

4處需要定義的是精確匹配(0)還是模糊匹配(1)堰氓。本文需要精確匹配挤渐,將兩個(gè)表格中探針I(yè)D完全一致的基因名提取到矩陣文件表格,因此此處填寫0双絮。

(4)點(diǎn)擊確定之后浴麻,已經(jīng)匹配到第一個(gè)探針I(yè)D的基因名。

雙擊該框右下角處囤攀,該列所有數(shù)據(jù)都會(huì)自動(dòng)生成软免。顯示為0的,意為在Gene symbol子表格里沒有查詢到矩陣文件表格中該探針I(yè)D的基因名焚挠。

生成數(shù)據(jù)之后膏萧,此列數(shù)據(jù)為帶格式數(shù)據(jù),在移動(dòng)整理的過(guò)程中可能會(huì)出現(xiàn)格式錯(cuò)誤蝌衔,建議將該列數(shù)據(jù)復(fù)制榛泛,在旁插入新的一列,以純文本格式粘貼到新生成的列中使用噩斟。

之后可將1曹锨、2列刪除。

(5)接下來(lái)就可以篩選感興趣基因的表達(dá)值了剃允。

選中基因名所在列沛简,點(diǎn)擊1處進(jìn)入篩選狀態(tài)齐鲤,點(diǎn)擊2處下拉框后輸入目標(biāo)基因。

本例以基因NCAN為例椒楣,進(jìn)行篩選给郊。得到NCAN在不同樣本中的基因表達(dá)值。

新建一個(gè)子表格撒顿,將上述兩行內(nèi)容復(fù)制到其中丑罪。

其為橫向排列荚板,同樣需要“轉(zhuǎn)置”粘貼凤壁。


步驟4

接下來(lái),在步驟2中生成的臨床信息子表格中跪另,根據(jù)樣本GSM編號(hào)進(jìn)行第二次數(shù)據(jù)匹配拧抖。

目的是將NCAN在不同樣本中的基因表達(dá)值,整合到臨床數(shù)據(jù)表格中免绿。

(1)選中預(yù)放置NCAN基因表達(dá)值那一列的初始欄唧席,插入VLOOKUP函數(shù)。(列標(biāo)題的位置同樣需空出)

(2)輸入數(shù)值嘲驾。

1處填寫的是需要用哪一欄作為匹配的基準(zhǔn)條件(即兩個(gè)表格的共同元素)淌哟。

本數(shù)據(jù)是用兩個(gè)子表格中共同的樣本GSM編號(hào)作為匹配條件,因此此處選擇A2辽故,用鼠標(biāo)點(diǎn)擊A2格或者直接輸入A2均可徒仓;

2處填寫的是匹配數(shù)據(jù)所需要的查找范圍。本文是要通過(guò)GSM編號(hào)查找基因表達(dá)譜子表格中的NCAN表達(dá)值誊垢,因此點(diǎn)擊基因表達(dá)譜子表格掉弛,選中GSM編號(hào)和基因表達(dá)值的兩列表格(如下圖)。此時(shí)函數(shù)中會(huì)自動(dòng)填寫剛剛所選擇的范圍喂走,即基因表達(dá)譜子表格中的A殃饿、B兩列。

3處需要填寫的是芋肠,需要提取到臨床數(shù)據(jù)表格的值在步驟2已選擇范圍中的哪一列乎芳。本文需要提取的基因表達(dá)值數(shù)據(jù)在第2列,因此此處填寫2即可帖池;

4處需要定義的是精確匹配(0)還是模糊匹配(1)秒咐。本文需要精確匹配,因此此處填寫0碘裕。

(4)點(diǎn)擊確定之后携取,已經(jīng)在臨床數(shù)據(jù)子表格中,匹配到第一個(gè)GSM編號(hào)的基因表達(dá)值帮孔。

雙擊該框右下角處雷滋,該列所有數(shù)據(jù)都會(huì)自動(dòng)生成不撑。(該操作有時(shí)會(huì)失效,如果雙擊無(wú)反應(yīng)晤斩,需要手動(dòng)下拉表格邊框焕檬,將數(shù)據(jù)生成到該列所有對(duì)應(yīng)欄)

需要注意的是,一般情況下澳泵,臨床數(shù)據(jù)表格里的GSM編號(hào)排列順序與基因表達(dá)譜表格里的GSM編號(hào)排列順序是一致的实愚。此處進(jìn)行第二次匹配,只是為了再次確保數(shù)據(jù)的一一對(duì)應(yīng)性兔辅。

步驟5

至此腊敲,我們得到的就是一個(gè)含有GSM樣本編號(hào)、目標(biāo)基因在各個(gè)GSM樣本的差異表達(dá)情況维苔、含有樣本臨床數(shù)據(jù)的總表碰辅。

接下來(lái)就可以用它做相應(yīng)的分析、制作結(jié)果圖啦介时。

小編開頭還提到另一個(gè)數(shù)據(jù)集没宾,包含了樣本生存信息、生存狀態(tài)等臨床特征數(shù)據(jù)沸柔,可以用來(lái)做生存分析循衰。

從GEO數(shù)據(jù)庫(kù)中下載此數(shù)據(jù)集后,同樣也需要對(duì)表格其進(jìn)行合并處理褐澎。

合并步驟與本文講解內(nèi)容一致会钝。

最終我們得到的,即為一個(gè)含有樣本生存數(shù)據(jù)等臨床信息乱凿、目標(biāo)基因在各個(gè)樣本中的表達(dá)情況總表顽素。

大家可以將此當(dāng)作練習(xí),既學(xué)習(xí)了處理不同內(nèi)容的表格徒蟆,同時(shí)也復(fù)習(xí)了本課所講的內(nèi)容胁出。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市段审,隨后出現(xiàn)的幾起案子全蝶,更是在濱河造成了極大的恐慌,老刑警劉巖寺枉,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件抑淫,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡姥闪,警方通過(guò)查閱死者的電腦和手機(jī)始苇,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)筐喳,“玉大人催式,你說(shuō)我怎么就攤上這事函喉。” “怎么了荣月?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵管呵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我哺窄,道長(zhǎng)捐下,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任萌业,我火速辦了婚禮坷襟,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘咽白。我一直安慰自己啤握,他們只是感情好鸟缕,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布晶框。 她就那樣靜靜地躺著,像睡著了一般懂从。 火紅的嫁衣襯著肌膚如雪授段。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天番甩,我揣著相機(jī)與錄音侵贵,去河邊找鬼。 笑死缘薛,一個(gè)胖子當(dāng)著我的面吹牛窍育,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播宴胧,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼漱抓,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了恕齐?” 一聲冷哼從身側(cè)響起乞娄,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎显歧,沒想到半個(gè)月后仪或,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡士骤,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年范删,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片拷肌。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡到旦,死狀恐怖束铭,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情厢绝,我是刑警寧澤契沫,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站昔汉,受9級(jí)特大地震影響懈万,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜靶病,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一会通、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧娄周,春花似錦涕侈、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至众辨,卻和暖如春端三,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背鹃彻。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工郊闯, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人蛛株。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓团赁,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親谨履。 傳聞我的和親對(duì)象是個(gè)殘疾皇子欢摄,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容