我們在做數(shù)據(jù)挖掘的時候爷肝,有時候遇到的數(shù)據(jù),提供的基因名是ensemble號事扭,人的話是ENSG開頭虏束,比如ENSG00000141736,而我們寫文章的時候是不想用這串冷冰冰的數(shù)字的表箭,因?yàn)椴荒苤庇^的讓人知道這到底是何物赁咙。
如果我們最后只得到這一個基因,那么隨便找一個數(shù)據(jù)庫就可以搜,比如在ncbi里面把這串?dāng)?shù)字輸入進(jìn)去彼水,就可以得到基因名崔拥。我們想要的是基因的縮寫,比如ERBB2凤覆,瞄一眼就知道是“酪氨酸激酶受體2 ”链瓦。
但是,很多情況下盯桦,我們需要的是批量檢索幾十個甚至上百個ENSG號慈俯,這時候我們可以從ensemble的官網(wǎng)去下載注釋列表用于檢索。
這一步經(jīng)常需要加載一會拥峦,如果是人的贴膘,我們選擇human genes,
選擇完之后頁面會自動刷新略号,左邊點(diǎn)擊Attributes刑峡,在左邊選擇你最終生成的表格所需的信息,這里有很多信息璃哟,我們需要的是Gene stable ID(即Ensemble號)以及Gene name(即基因的縮寫)氛琢,如果需要其他信息,一并選上就行随闪。
選完之后點(diǎn)results阳似,出現(xiàn)如下畫面,給了前十行的示意圖铐伴,點(diǎn)擊Go即可下載表格撮奏。
下載的文件默認(rèn)叫做“mart_export.txt”,可以用excel打開当宴,這個就是我們要的ensemble號和基因縮寫的對照表了畜吊。
從表格種粘貼一些ensemble號到右邊區(qū)域,作為示例户矢,現(xiàn)在我們要用VLOOKUP函數(shù)需尋找這些基因的縮寫玲献。
這里有四個參數(shù)需要設(shè)置,
第一個參數(shù)是選需要尋找的基因梯浪,注意只選擇第一個捌年;
第二個參數(shù)選擇要去搜索的對照表,兩列全選就行挂洛;
第三個參數(shù)是需要輸出的列數(shù)礼预,這里是第二列(注意這里的2的所選參照表里的第二列,而不一定是excel里面的第2列)虏劲;
第四個參數(shù)是模糊匹配還是精確匹配托酸,我們當(dāng)然要精確的褒颈,填個0就行了,然后點(diǎn)確定励堡, 得到結(jié)果
下面的基因直接下拉就行谷丸!