如果不太清楚如何挖掘GEO數(shù)據(jù)庫的,可以先看
1. 四文搞定GEO數(shù)據(jù)庫轉(zhuǎn)錄組差異分析之簡(jiǎn)介
2. 四文搞定GEO數(shù)據(jù)庫轉(zhuǎn)錄組差異分析之操作
1. 本文能解決的問題
在我們分析GEO數(shù)據(jù)的時(shí)候管引,總會(huì)遇到下面這樣的GPL,沒有g(shù)ene symbol,也不太好轉(zhuǎn)換蕉朵。參考GEO芯片中的NM_万牺,NR_開頭的識(shí)別號(hào)如何轉(zhuǎn)換成基因名稱?等其他ID轉(zhuǎn)換的文章邢享,我們確實(shí)是可以完成任務(wù)鹏往,但是特別費(fèi)時(shí)費(fèi)力,而且總是得一種ID對(duì)應(yīng)一種轉(zhuǎn)換流程骇塘,很麻煩伊履。
當(dāng)需要分析10個(gè)平臺(tái)的時(shí)候,我們可能一個(gè)一個(gè)做款违,3天能做完唐瀑,而如果當(dāng)我們需要分析6000個(gè)平臺(tái)的時(shí)候。插爹。哄辣。
本文主要針對(duì)沒有symbol列的人/小鼠的芯片數(shù)據(jù)GPL文件進(jìn)行自動(dòng)、批量ID轉(zhuǎn)換赠尾,對(duì)著電腦發(fā)會(huì)兒呆力穗,GPL文件就處理好了。
2. 主要利用倆技術(shù)
正則表達(dá)式負(fù)責(zé)識(shí)別ID類型以及具體的每個(gè)ID
bioma****Rt包負(fù)責(zé)各種ID轉(zhuǎn)換
3. 怎么用
后臺(tái)回復(fù)GEO芯片分析气嫁,獲取相關(guān)代碼和文件
-
打開GPL_auto_ann.Rproj
-
在Rstudio的右下窗口File欄中雙擊GPL_auto_ann.R
-
修改第三行root_dir的目錄名為GPL_auto_ann文件夾所在目錄当窗,以“/”斜杠分割,如此處為****D:/GPL_auto_ann
-
將需要ID轉(zhuǎn)換的GPL文件放入GPL_file文件夾
-
Rstudio左上區(qū)域ctrl+A全選代碼寸宵,然后
一些聲明:
本文并未針對(duì)大鼠ID轉(zhuǎn)換寫相應(yīng)代碼崖面,請(qǐng)運(yùn)行之前檢查!
由于GPL文件現(xiàn)在挺大的梯影,因此輸出文件將覆蓋源文件巫员,并僅保留兩列(ID 列和symbol列)
針對(duì)原來就已經(jīng)有symbol列的GPL文件,代碼并未做任何修改
感謝觀看到最后甲棍,敬請(qǐng)批評(píng)指正!