1. 有現(xiàn)成的工具
https://zhuanlan.zhihu.com/p/389602337
https://zhuanlan.zhihu.com/p/650938857
第二個(gè)帖子介紹了不少R包,不過(guò)我個(gè)人更推崇SNP文件比對(duì)加NCBI檢查的方案
2. SNPdb文件比對(duì)
需要注意版本問(wèn)題,經(jīng)常會(huì)碰到不同的基因組assembly版本,如hg18, hg19, GRCh37, GRCh38
此外還有0-1問(wèn)題(https://arnaudceol.wordpress.com/2014/09/18/chromosome-coordinate-systems-0-based-1-based咒精。)烹骨,這個(gè)怎么說(shuō)呢橄仍,比對(duì)完了去ncbi的網(wǎng)頁(yè)工具上驗(yàn)證一下
https://zhuanlan.zhihu.com/p/510331018
dbsnp 144/155
https://qinqianshan.com/bioinformatics/biodatabase/dbsnp/
https://www.ncbi.nlm.nih.gov/snp/
3. 補(bǔ)充
如果想綜合多個(gè)sumsat文件所禀,可能會(huì)涉及到多個(gè)版本界斜,需要一些工具進(jìn)行版本間轉(zhuǎn)化竞漾。
Remap:http://www.reibang.com/p/41e5280f59c3
USCS的LIFTOVER:http://www.reibang.com/p/c6da6f4dadd3
一些版本的總結(jié):https://gwaslab.org/2021/03/31/%e4%ba%ba%e7%b1%bb%e5%8f%82%e8%80%83%e5%9f%ba%e5%9b%a0%e7%bb%84-human-reference-genome/
因?yàn)楸救私?jīng)常用ensembl眯搭,但是我沒(méi)找到SNP文件哈,uscs上都有业岁,也挺全的鳞仙,不費(fèi)勁了,官網(wǎng)尚未找找就有了
http://www.reibang.com/p/71333d152c32
https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1820013238_FsgqqSc7Tc3HaEAAYHa3rTZxWtw7&c=chr2&g=snp151
這還有個(gè)用ncbi下載的vcf提取常見(jiàn)snp
https://cloud.tencent.com/developer/article/1880338
另一個(gè)用uscs的帖子:https://zhuanlan.zhihu.com/p/410164485
下載這類文件笔时,千萬(wàn)別改名棍好,不然搞忘版本了很麻煩
看了這么多,我自己選擇哪個(gè)呢允耿?
我選擇R library(MungeSumstats)
哈哈借笙,不過(guò)用函數(shù)就失去了掌控感,懶得看里面较锡。
用函數(shù)的話需要內(nèi)存大點(diǎn)哈业稼,反正32g是不夠滴
自己搞替換文本的話可以拆分文件,多線程也可以很快蚂蕴。