前一段時間處理數(shù)據(jù)發(fā)現(xiàn)Excel里面的差異基因有一部分變成日期了,直接想到了之前在生信技能樹看到博文∽凵鳎現(xiàn)在轉發(fā)出來与纽。
聽說Excel表格動了你的基因名余舶?
原創(chuàng) 生信技能樹 生信技能樹
很簡單啊兔簇,修改回來胺⒕睢!D腥汀朴摊!
幫同學處理一下他從公司拿到的差異分析結果默垄,當然此虑,給我的是Excel表格,老規(guī)矩口锭,導出csv然后讀入R朦前,然后準備順手畫個火山圖,PCA圖鹃操,熱圖韭寸,做個GO/KEGG富集分析。下意識的看了看數(shù)據(jù)結構荆隘,然后順手按照基因名排序了一下恩伺,哈哈哈~
這是一個大坑。
就因為這個還有兩篇文章椰拒;
Mistaken Identifiers: Gene name errors can be introduced inadvertently when using Excel in bioinformatics 2004年
Gene name errors are widespread in the scientific literature 2016年
也有人在論壇上面發(fā)問晶渠,高達2K的閱讀量: https://www.biostars.org/p/211861/
Some gene names start with APR/MARC/SEPT* etc default converted into date format.
我們生信技能樹論壇也有人分享過: Excel-坑你的基因名沒商量!
隨意篡改20%的遺傳學論文!可就在今年8月份燃观,三位科學家在《Genome Biology》期刊上發(fā)表論文褒脯,稱他們發(fā)現(xiàn)20%的遺傳學論文包含了Excel軟件導致的基因名轉換錯誤。他們對論文進行的掃描顯示缆毁,科學文獻中的基因名錯誤十分普遍番川,在默認設置下Excel軟件會將基因的名字轉換成日期或浮點數(shù)。舉例來說脊框,基因名字SEPT2和MARCH1會被分別轉換成2-Sep和1-Mar;標識符2310009E1被轉換成浮點數(shù)2.31E+13颁督。
但是,如果你會編程的話浇雹,事情就很簡單咯适篙,一句話搞定!
a$Gene.Symbol=unlist(lapply(as.character(a$gene_assignment),function(x){trimws(strsplit(x,'//')[[1]][2])}))