由于HapMap網(wǎng)站關(guān)閉,許多網(wǎng)上流傳的選擇tagSNP的方法不能用了臼闻,但是還有千人基因組網(wǎng)站的數(shù)據(jù)能用,本文詳述如何從千人基因組網(wǎng)站下載某個區(qū)段的位點信息并導(dǎo)入Haploview來選擇tagSNP囤采。
1述呐、VCF to PED Converter 是千人基因組網(wǎng)站自帶的將vcf轉(zhuǎn)換為HapMap格式的在線工具,數(shù)據(jù)現(xiàn)在可以不用下載蕉毯,直接輸入基因的位置信息就可以轉(zhuǎn)換了乓搬,但是使用前要注冊下。
VCF to PED Converter: http://www.internationalgenome.org/vcf-ped-converter#online-version
2代虾、以COMT基因為例进肯,打開http://grch37.ensembl.org/Homo_sapiens/Info/Index,輸入基因名棉磨,點擊Go后進(jìn)入COMT的信息界面江掩,會出現(xiàn)此基因在染色體上的位置。將此信息復(fù)制到VCF to PED Converter界面里。
-
注意這一步讓倒計時跑完频敛,自動進(jìn)入頁面
-
將此頁面信息都填寫完整
-
點擊run后等待刷新完畢(refresh)
-
跑完就顯示done, 點擊查看結(jié)果
- 下載ped和info文件
- 解壓這兩個文件放入同一文件夾
- 打開Haploview项郊,輸入文件,同名可以自動識別這兩個文件斟赚,只用輸入一個着降。
-
提示more than two alleles at marker 64, 去文件里刪除這個位點還是不行,不知道咋回事拗军。一般0=missing,1=A, 2=C, 3=G, 4=T任洞。換成FMO1基因就可以導(dǎo)入。
-
一般r2>0.8認(rèn)為一個位點可以代表另外一個发侵,這兩個位點是高度連鎖的交掏,點擊run tagger。
-
結(jié)果說明82個位點可以100%覆蓋這個基因刃鳄,如果不需要這么多位點盅弛,可以把外顯子上的挑出來,降低覆蓋度叔锐。
- 直接在選擇的位點后面選force include, 再run后會發(fā)現(xiàn)Haploview給出了這幾個位點的覆蓋度挪鹏,只有9%。
方法二:
有些基因下載的文件導(dǎo)入haploview會報錯愉烙,經(jīng)過研究發(fā)現(xiàn)另一種手動的方法也可以(???)讨盒。
- 打開http://grch37.ensembl.org/index.html網(wǎng)站,輸入基因名步责,如下:
選擇go返顺,選第一個,就是我們要的基因了
可以看出左邊幾乎列出了所有的基因相關(guān)信息蔓肯!我們選variant table,就可以把所有的SNP列出來啦遂鹊!
我只選了MAF在0.05-0.5(tag SNP 一般選common的位點)之間的位于外顯子上的位點,可以看出只剩下4個了省核,但是這4個竟然是同一個位點稿辙!
可以在我們設(shè)置過濾條件后挑選SNP啦昆码!但是有可能會選到連鎖的位點气忠,最好看下有沒有連鎖的,有的話連鎖位點選一個就可以了赋咽。
用HaploReg v4.1 (http://archive.broadinstitute.org/mammals/haploreg/haploreg.php)看下連鎖位點:
可以看出這個數(shù)據(jù)庫集成了很多其他數(shù)據(jù)庫旧噪,可以挑選有功能的位點進(jìn)一步研究。