歡迎來到"bio生物信息"的世界
公眾號有位小朋友留言希望我寫一下snpflip
的使用垄提。
重新翻了一下之前寫的推文覆旭,發(fā)現(xiàn)我是用意念寫完的snpflip
滤否,總感覺我寫過這個工具的使用了涂圆。
因此這里重新補(bǔ)充一下snpflip
工具的使用。
關(guān)于snpflip
的使用背景我就不多介紹了瑰步,之前的文章有寫過數(shù)據(jù)合并,踩不完的坑
下面直接講一下怎么使用璧眠。
這個工具安裝和使用都非常簡單缩焦,老少皆懂。
第一步:下載责静、安裝snpflip
wget https://files.pythonhosted.org/packages/5d/58/c4e3427cd307c29c92631f0d2bc0ee599687d1d29019a390d9786ec6a44e/snpflip-0.0.6.tar.gz
tar -zxvf snpflip-0.0.6.tar.gz
第二步:下載參考基因組
wget http://ftp-trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/human_g1k_v37.fasta.gz
gunzip human_g1k_v37.fasta.gz
第三步:校正正負(fù)鏈
查找混有正負(fù)鏈的SNP:
/snpflip-0.0.6/bin/snpflip -b file.bim -f human_g1k_v37.fasta -o snpflip_output
解釋一下袁滥,file.bim
就是混有正負(fù)鏈的plink文件。
human_g1k_v37.fasta
就是第二步生成的參考基因組文件灾螃。
snpflip_output
就是新生成的文件题翻。
詳細(xì)解釋可看推文數(shù)據(jù)合并,踩不完的坑
統(tǒng)一正負(fù)鏈:
plink --file snp_data --flip snpflip_output.reverse --make-bed --out flipgood
snp_data
是plink格式的文件
snpflip_output.reverse
是上面找出來的負(fù)鏈腰鬼。
如果你手頭的數(shù)據(jù)不是plink格式的話嵌赠,這里提供一個將vcf轉(zhuǎn)化為plink文件的方法:plink --vcf yourfile.vcf --make-bed --out your_prefix
對了,使用這個軟件可能會遇到報錯:ImportError: /usr/lib64/libstdc++.so.6: version 'GLIBCXX_3.4.21' not found (required by ~/anaconda2/lib/python2.7/site-packages/pandas/_libs/window.so)
這個報錯的解決方法就是找到滿足'GLIBCXX_3.4.21'的libstdc++.so熄赡,然后將滿足條件的libstdc++.so軟連接到自己有權(quán)限的文件夾中姜挺。最后,export一下有權(quán)限的這個文件夾彼硫。當(dāng)然炊豪,如果你有root權(quán)限的話凌箕,就直接軟連接到報錯的libstdc++.so.6路徑中。網(wǎng)上這個報錯的教程很多词渤,請自行搜索牵舱。
最后,希望你們能順利的跑完這個軟件掖肋。