群體遺傳筆記(一):群體間選擇信號(hào)的檢測(cè)及GO注釋

從獲取下機(jī)數(shù)據(jù)做質(zhì)控所踊、比對(duì),到calling snp獲得vcf文件這一步概荷,網(wǎng)上已經(jīng)有非常詳細(xì)的教程秕岛,有GATK4.0和全基因組數(shù)據(jù)分析實(shí)踐(上),還有Samtools+bcftools Call SNP等等乍赫。但是在群體遺傳的研究中瓣蛀,我們經(jīng)常需要比較不同群體的vcf文件,鑒定不同群體間基因組水平上發(fā)生分化的區(qū)域雷厂,并注釋其發(fā)生分化的基因惋增,網(wǎng)上對(duì)于這類群體選擇信號(hào)分析的分享還比較少。

我通過(guò)計(jì)算Fst和TajimaD這兩個(gè)經(jīng)典的指數(shù)改鲫,來(lái)進(jìn)行選擇信號(hào)的分析诈皿。話不多說(shuō),先走一遍流程吧像棘!

1稽亏、工具和文件的準(zhǔn)備

工具:vcftools;snpEff缕题;

文件:突變型群體的vcf文件(DA.vcf);包含了突變型和野生型兩個(gè)群體的vcf文件(all.vcf);突變型群體信息(DA.txt);野生型群體信息(non_DA.txt);參考基因組的GFF注釋文件(如果GFF注釋文件中沒(méi)有對(duì)應(yīng)的GO編號(hào)信息截歉,則還需要該物種基因ID與GO編號(hào)的對(duì)應(yīng)信息文件annot.go.tab)

2、滑窗計(jì)算Fst和TajimaD值

vcftools可以通過(guò)設(shè)置窗口大小來(lái)計(jì)算染色體(或scaffolds)上指定區(qū)域的Fst和TajimaD的值烟零,但不足的是在計(jì)算TajimaD值時(shí)瘪松,不能設(shè)置步長(zhǎng)(可使用VCF-kit進(jìn)行可設(shè)置步長(zhǎng)的計(jì)算),因此锨阿,為了方便后續(xù)的分析宵睦,我在這里計(jì)算Fst和TajimaD時(shí),只設(shè)置了窗口大惺睢(10000)壳嚎,未設(shè)置步長(zhǎng)。

vcftools --vcf all.vcf --weir-fst-pop DA.txt?--weir-fst-pop non_DA.txt?--fst-window-size 10000 --out da_nonda

生成da_nonda.windowed.weir.fst 文件

CHROM BIN_START BIN_END N_VARIANTS WEIGHTED_FST MEAN_FST

1? ? ? 1? ? ? 10000? 7? ? ? 0.0976319? ? ? 0.0971726

1? ? ? 10001? 20000? 61? ? ? 0.0511299? ? ? 0.0499982

1? ? ? 20001? 30000? 49? ? ? 0.0372642? ? ? 0.0402562

1? ? ? 30001? 40000? 49? ? ? 0.0679565? ? ? 0.073192

1? ? ? 40001? 50000? 17? ? ? 0.0299695? ? ? 0.0355619

1? ? ? 50001? 60000? 56? ? ? 0.101204? ? ? ? 0.105008

1? ? ? 60001? 70000? 180? ? 0.0951801? ? ? 0.100651

1? ? ? 70001? 80000? 21? ? ? 0.07005 0.0728101

1? ? ? 80001? 90000? 60? ? ? 0.170809? ? ? ? 0.178863

1? ? ? 90001? 100000? 21? ? ? 0.0920029? ? ? 0.10329

vcftools --vcf DA.vcf --TajimaD 10000 --out DA

生成DA.Tajima.D文件

CHROM BIN_START N_SNPS TajimaD

1? ? ? 0? ? ? 9? ? ? 2.88793

1? ? ? 10000? 40? ? ? 3.12075

1? ? ? 20000? 70? ? ? 2.90904

1? ? ? 30000? 90? ? ? 3.37423

1? ? ? 40000? 49? ? ? 3.24297

1? ? ? 50000? 88? ? ? 3.31503

1? ? ? 60000? 329? ? 3.52148

1? ? ? 70000? 26? ? ? 2.38513

1? ? ? 80000? 82? ? ? 2.30261

1? ? ? 90000? 82? ? ? 2.37531

1? ? ? 100000? 12? ? ? 2.48976

1? ? ? 110000? 86? ? ? 2.43792

1? ? ? 120000? 52? ? ? 2.95367

1? ? ? 130000? 57? ? ? 3.03159

1? ? ? 140000? 71? ? ? 3.06152

1? ? ? 150000? 142? ? 3.478

1? ? ? 160000? 0? ? ? nan

1? ? ? 170000? 2? ? ? 0.34569

1? ? ? 180000? 0? ? ? nan

3末早、對(duì)Fst和TajimaD值進(jìn)行篩選烟馅、排序

首先對(duì)生成Fst文件進(jìn)行排序,將文件按照第六列荐吉,也就是MEAN_FST這列值焙糟,從大到小進(jìn)行排序

sort -nr -k6?da_nonda.windowed.weir.fst?

1 12910001 12920000 1 2.47818e-17 2.47818e-17

11? ? ? 11750001? ? ? ? 11760000? ? ? ? 1? ? ? 2.47818e-17? ? 2.47818e-17

11? ? ? 3990001 4000000 2? ? ? 2.18381e-18? ? 2.29795e-18

10? ? ? 7260001 7270000 1? ? ? 2.10168e-17? ? 2.10168e-17

7? ? ? 16280001? ? ? ? 16290000? ? ? ? 2? ? ? 1.0842e-17? ? ? 1.23909e-17

1? ? ? 13520001? ? ? ? 13530000? ? ? ? 2? ? ? 1.0842e-17? ? ? 1.23909e-17

7? ? ? 23470001? ? ? ? 23480000? ? ? ? 1? ? ? 0.9375? 0.9375

8? ? ? 18430001? ? ? ? 18440000? ? ? ? 1? ? ? 0.931034? ? ? ? 0.931034

1? ? ? 8430001 8440000 1? ? ? 0.845361? ? ? ? 0.845361

9? ? ? 9550001 9560000 1? ? ? 0.833333? ? ? ? 0.833333

9? ? ? 5930001 5940000 1? ? ? 0.833333? ? ? ? 0.833333

9? ? ? 13450001? ? ? ? 13460000? ? ? ? 1? ? ? 0.833333? ? ? ? 0.833333

排序之后發(fā)現(xiàn),由于有些值過(guò)小样屠,在使用科學(xué)計(jì)數(shù)法時(shí)排在了正常計(jì)數(shù)值的前面穿撮,為了去掉這個(gè)錯(cuò)誤缺脉,先把使用科學(xué)計(jì)數(shù)法的值,統(tǒng)一歸為0悦穿,再進(jìn)行排序

awk '{if($6~/e/)$6=0}1' da_nonda.windowed.weir.fst > da_nonda.window.clean.fst && sort -rn -k6 da_nonda.windowed.clean.fst? > da_nonda.windowed.sort.fst

對(duì)文件第2列做減1處理攻礼,方便后面與TajimaD匹配

awk '{$2 = $2-1;print$0}' sp1_da.window.sort.fst > sp1_da.sort.fst

統(tǒng)計(jì)da_nonda.sort.fst有多少行

wc -l?da_nonda.sort.fst

17824

取Fst值最大的前10%窗口,作為候選選擇區(qū)域

head -n 1782?da_nonda.sort.fst > da_nonda.top0.1.fst


對(duì)于TajimaD文件栗柒,先清除掉第4列為nan的行礁扮,再對(duì)其進(jìn)行排序,取前5%和后5%的值

sed -e '/nan/d' DA.Tajima.D > DA.clean.tajimaD && sort -nr -k4 DA.clean.tajimaD > DA.sort.tajimaD

wc -l DA.sort.tajimaD

19484

head -n 974?DA.sort.tajimaD > DA.top0.05.tajimaD

tail -n 974 DA.sort.tajimaD > DA.bot0.05.tajimaD

取Fst前10%區(qū)域和TajimaD前5%(后5%)區(qū)域的交集,并按照染色體(scaffolds)順序排序瞬沦,將得到的這些窗口作為受選擇區(qū)域

cat DA.top0.05.tajimaD da_nonda.top0.1.fst > DA.top && awk 'pass==1 { count[$1,$2]++ } pass==2 { if(count[$1,$2]>1) print }' pass=1 DA.top pass=2 DA.top > DA.top.site

wc -l DA.top.site

40

head -n 20 DA.top.site > DA.top.keep.site

sort -n -k1?DA.top.keep.site >?DA.top.sort.site

得到的文件如下

1 17540000 2 1.9458

1? ? ? 28520000? ? ? ? 3? ? ? 1.96716

2? ? ? 17140000? ? ? ? 5? ? ? 2.41094

2? ? ? 19520000? ? ? ? 2? ? ? 2.03336

2? ? ? 19620000? ? ? ? 2? ? ? 1.97256

2? ? ? 19630000? ? ? ? 2? ? ? 2.03336

2? ? ? 21790000? ? ? ? 2? ? ? 1.92526

2? ? ? 28710000? ? ? ? 2? ? ? 2.03336

3? ? ? 12170000? ? ? ? 12? ? ? 2.63244

3? ? ? 14190000? ? ? ? 12? ? ? 2.74771

3? ? ? 25930000? ? ? ? 4? ? ? 1.94295

3? ? ? 4700000 4? ? ? 2.25325

4? ? ? 8030000 5? ? ? 2.04905

5? ? ? 8680000 16? ? ? 2.6894

6? ? ? 13390000? ? ? ? 7? ? ? 2.06337

6? ? ? 22180000? ? ? ? 3? ? ? 2.0041

7? ? ? 23620000? ? ? ? 2? ? ? 1.92526

8? ? ? 8650000 3? ? ? 2.24976

11? ? ? 5080000 3? ? ? 2.04485

12? ? ? 1160000 6? ? ? 2.23514

4太伊、使用snpEff對(duì)DA.vcf文件進(jìn)行注釋

snpEff的教程很多,先SnpEff 配置基因組注釋文件逛钻,再snpEFF注釋vcf-筆記僚焦,最終得到包含注釋信息的DA.annotation.vcf

#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT sample12 sample13 sample14 sample15 sample16 sample17 samp

le18? ? ? ? sample19? ? ? ? sample20? ? ? ? sample21

1? ? ? 3923? ? .? ? ? T? ? ? C? ? ? 98? ? ? PASS? ? BQB=0.169762;HOB=0.5;ICB=1;MQ=40;MQ0F=0.0322581;MQB=0.000633889;MQSB=0.975265;RPB=0.103031;SGB=-0.662043;VDB=0.07878

29;DP=198;DP4=60,33,30,28;AN=10;AC=5;ANN=C|intergenic_region|MODIFIER|CHR_START-VJ01Gene00001|CHR_START-VJ01Gene00001|intergenic_region|CHR_START-VJ01Gene00001|||n.3923T>C|

|||||? GT:AD:ADF:ADR:DP:PL:SP? ./.:.:.:.:.:.:. 0/1:12,9:8,6:4,3:21:55,0,255:0? 0/1:27,14:17,8:10,6:41:132,0,255:1? ? ? ./.:.:.:.:.:.:. 0/1:15,11:9,6:6,5:28:108,0,255:0

? ? ? ? 0/1:18,13:11,5:7,8:31:105,0,255:5? ? ? ./.:.:.:.:.:.:. 0/1:21,9:15,4:6,5:30:70,0,255:6 ./.:.:.:.:.:.:. ./.:.:.:.:.:.:.

5、從物種的基因ID到GO ID

得到分化區(qū)域內(nèi)SNP的注釋信息曙痘,并去掉intron區(qū)和同義突變的位點(diǎn)

awk '$3 = "vcftools --vcf DA.annotation.vcf --chr"" " $1" " "--from-bp"" "$2" " "--to-bp"" "$2+10000" " "--recode --recode-INFO-all --out"" "$1"_"$2 {print $3}' DA.top.sort.site > vcf.sh

sh vcf.sh

grep -v "int" *.recode.vcf|grep -v "synonymous_variant" > non_int_synon.vcf

提取SNP位點(diǎn)所對(duì)應(yīng)的基因ID信息

awk '{print $8}' non_int_synon.vcf|grep -o 'VJ01Gene[0-9][0-9][0-9][0-9][0-9]' > geneID.txt

去重復(fù)

sort -n geneID.txt | uniq > clean_geneID.txt

將物種的基因ID與GO數(shù)據(jù)庫(kù)的ID對(duì)應(yīng)

awk 'ARGIND==1{a[$1]=$0} ARGIND==2 && ($1 in a) {print $0}' clean_geneID.txt annot.go.tab > geneID_goID.txt

提取GO ID

awk '{print $2}' geneID_goID.txt > goID.txt

less goID.txt

GO:0004725

GO:0006570

GO:0035335

GO:0004190

GO:0006508

GO:0004190

GO:0005764

GO:0006508

這樣就得到了Fst top0.1和TajimaD top 0.05兩者都存在的GO ID芳悲,即受到平衡選擇的基因,TajimaD bot 0.05篩選的是受到定向選擇的基因边坤,做法也是一樣的名扛。

最后,對(duì)我們得到的基因進(jìn)行GO富集分析茧痒,在線GO富集的工具有很多肮韧,基迪奧在線云分析平臺(tái)和遺傳所王秀杰課題組開(kāi)發(fā)的GOEAST平臺(tái)都很方便做⊥基迪奧平臺(tái)的富集分析結(jié)果如下


GO富集


寫(xiě)在最后:從去年11月拿到下機(jī)的重測(cè)序數(shù)據(jù)惹苗,并簡(jiǎn)單搭建了服務(wù)器分析環(huán)境,一路摸著石頭過(guò)河耸峭,戰(zhàn)戰(zhàn)兢兢,在度娘和github兩位老師的指導(dǎo)下才逐步入門淋纲,希望和更多做群體重測(cè)序的小伙伴交流袄湍帧!QQ:657231499



?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末洽瞬,一起剝皮案震驚了整個(gè)濱河市本涕,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌伙窃,老刑警劉巖菩颖,帶你破解...
    沈念sama閱讀 216,402評(píng)論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異为障,居然都是意外死亡晦闰,警方通過(guò)查閱死者的電腦和手機(jī)放祟,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)呻右,“玉大人跪妥,你說(shuō)我怎么就攤上這事∩模” “怎么了眉撵?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,483評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)落塑。 經(jīng)常有香客問(wèn)我纽疟,道長(zhǎng),這世上最難降的妖魔是什么憾赁? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,165評(píng)論 1 292
  • 正文 為了忘掉前任污朽,我火速辦了婚禮,結(jié)果婚禮上缠沈,老公的妹妹穿的比我還像新娘膘壶。我一直安慰自己,他們只是感情好洲愤,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,176評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布颓芭。 她就那樣靜靜地躺著,像睡著了一般柬赐。 火紅的嫁衣襯著肌膚如雪亡问。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,146評(píng)論 1 297
  • 那天肛宋,我揣著相機(jī)與錄音州藕,去河邊找鬼。 笑死酝陈,一個(gè)胖子當(dāng)著我的面吹牛床玻,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播沉帮,決...
    沈念sama閱讀 40,032評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼锈死,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了穆壕?” 一聲冷哼從身側(cè)響起待牵,我...
    開(kāi)封第一講書(shū)人閱讀 38,896評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎喇勋,沒(méi)想到半個(gè)月后缨该,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,311評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡川背,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,536評(píng)論 2 332
  • 正文 我和宋清朗相戀三年贰拿,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蛤袒。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,696評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡壮不,死狀恐怖汗盘,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情询一,我是刑警寧澤隐孽,帶...
    沈念sama閱讀 35,413評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站健蕊,受9級(jí)特大地震影響菱阵,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜缩功,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,008評(píng)論 3 325
  • 文/蒙蒙 一晴及、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧嫡锌,春花似錦虑稼、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至啦桌,卻和暖如春溯壶,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背甫男。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,815評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工且改, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人板驳。 一個(gè)月前我還...
    沈念sama閱讀 47,698評(píng)論 2 368
  • 正文 我出身青樓又跛,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親若治。 傳聞我的和親對(duì)象是個(gè)殘疾皇子效扫,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,592評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容