基于單體型haplotypes的群體選擇信號的檢測——EHH & iHS

基于單體型haplotype的選擇信號的檢測。在selective sweeps選擇過程中擂错，有些強烈受到選擇的位點variants由于LD的因素會連帶著其附近的位點variants一起被保留缕陕，并且不會受到重組recombination的打斷粱锐。一些低重組區(qū)域的haplotypes的長度會高于那些高重組區(qū)域的haplotypes的長度。因此扛邑，對比同一genomic區(qū)域在不同群體中的haplotype的長度可以用來判斷是否受到選擇怜浅。例如：在一個群體內(nèi)部，如果某一個體強烈受到選擇蔬崩，其haplotype的長度會遠長于其它個體恶座；同理，對于兩個群體之間的比較沥阳，某一群體受到選擇奥裸，則其基因組中的受選擇區(qū)域的haplotypes會比未受到選擇群體中的haplotypes更長。

選擇壓力分析基本原理

image

原始群體中沪袭，遺傳多樣性是十分高的湾宙，整個序列的核酸diversity都高。而在受到選擇之后冈绊，diversity會發(fā)生波動侠鳄。核酸多樣性下降可能就是由于under selection導致的。

在演化/馴化過程中死宣，如果某一基因X占優(yōu)勢伟恶，即X的基因型占據(jù)主導地位，則基因X所在區(qū)域的雜合率/多樣性會顯著下降毅该。本質(zhì)就是比較基因組不同區(qū)域多樣性（雜合率）的變化

群體遺傳關(guān)心的問題：
- 遺傳結(jié)構(gòu)（phylogeny+structure）
- 基因組上受選擇區(qū)域：群體水平基因組不同位置的區(qū)域遺傳多樣性變化的規(guī)律（例如：Pi博秫、Tajima's D, Fst）
變異類型：
- 中性突變（同義、相同類型的氨基酸眶掌、不影響環(huán)境適應(yīng)性）：平衡選擇挡育，這種基因型頻率是大致恒定的
- 有利突變（正選擇）：選擇掃蕩（Selective sweep），與有利突變的中性突變的頻率會顯著提升
  
  selective sweeps
- 有害突變（負選擇）：背景選擇（negative selection/background selection/ purifying selection） 是潛在的噪音

負選擇會對正選擇有一定的干擾作用朴爬，都能產(chǎn)生大量的低頻突變即寒，但是正選擇會產(chǎn)生相對較多的高頻突變。

兩個亞群體之間的比較

多樣性水平在亞群間比較召噩，一般包括線性相關(guān)分析母赵、亞群體間的差異比較兩類。動植物重測序多是后者具滴。Fst/pi ratio基于pi值凹嘲。

群體分化程度Fst (Fixation index): 比較兩個亞群體間的Pi值和亞群體內(nèi)的Pi值的差異。
- 由PI值計算演變來（序列兩兩差異取均值）
- 兩個亞群體在某一段seq區(qū)域的差異度构韵。0是無差異周蹭，數(shù)值越大溯革，則說明兩個亞群體之間已經(jīng)發(fā)生了明顯的分化（亞群內(nèi)個體相似，亞群間差異大）

Fst=(\pi(between) - \pi(within))/ \pi(between)

多樣性變化倍數(shù)Pi ratio：某區(qū)間在亞群間的多樣性差異的倍數(shù)谷醉，簡單粗暴，就關(guān)注多樣性值的高低變化冈闭。
- 例如野生群體A/栽培群體B俱尼；野生群體A的多樣性較高，而栽培群體B的多樣性較低萎攒，所以多樣性降低最顯著的基因組區(qū)域遇八，就與馴化改良基因相關(guān)
其它比較值：ROD值、XP-CLR值等耍休。而多個品種間的比較分化差異的di值

基于haplotype單體型的比較

前面pi/fst等都是基于SNP位點的多態(tài)性來檢測潛在的選擇信號區(qū)域刃永。另一種方法是基于單體型haplotype的選擇信號的檢測。在selective sweeps選擇過程中羊精，有些強烈受到選擇的位點variants由于LD的因素會連帶著其附近的位點variants一起被保留斯够，并且不會受到重組recombination的打斷。一些低重組區(qū)域的haplotypes的長度會高于那些高重組區(qū)域的haplotypes的長度喧锦。因此读规，對比同一genomic區(qū)域在不同群體中的haplotype的長度可以用來判斷是否受到選擇。例如：在一個群體內(nèi)部燃少，如果某一個體強烈受到選擇束亏，其haplotype的長度會遠長于其它個體；同理阵具，對于兩個群體之間的比較碍遍，某一群體受到選擇，則其基因組中的受選擇區(qū)域的haplotypes會比未受到選擇群體中的haplotypes更長阳液。

檢測haplotype的選擇信號最好利用定相phased后的數(shù)據(jù)集怕敬。方法有EHH和CLR法。這里利用R包中的rehh包進行分析帘皿。rehh有強大的說明和教程文檔赖捌，后續(xù)深入了解其原理時值得進一步學習研究。rehh tutorial

rehh的實踐

讀取數(shù)據(jù)矮烹。分別讀取兩個群體的phased的vcf數(shù)據(jù)
- polarize_vcf設(shè)為FALSE. because we have not used an outgroup genome to set our alleles as derived or ancestral
- 根據(jù)maf進行過濾位點

# read in data for each species# house
house_hh <- data2haplohh(hap_file = "./house_chr8.vcf.gz",polarize_vcf = FALSE)
# bactrianus
bac_hh <- data2haplohh(hap_file = "./bac_chr8.vcf.gz",polarize_vcf = FALSE)

## filter on MAF - 0.05
house_scan <- scan_hh(house_hh_f, polarized = FALSE)
bac_scan <- scan_hh(bac_hh_f, polarized = FALSE)

image

計算計算單體型的iHS值越庇。
- polarized = FALSE
- freqbin =1 if we know the ancestral allels or derived allels. rehh can apply weights to different bins of allele frequencies in order to test whether there is a significant deviation in the iHS statistic.
- log Pvalue用于檢測outliers值點，

## perform haplotype genome scan- iHS
house_scan <- scan_hh(house_hh_f, polarized = FALSE)
bac_scan <- scan_hh(bac_hh_f, polarized = FALSE)

## perform iHS on house
house_ihs <- ihh2ihs(house_scan, freqbin = 1)
### plot the iHS statistics
ggplot(house_ihs$ihs, aes(POSITION, IHS)) + geom_point()
### plot the log P-value 
ggplot(house_ihs$ihs, aes(POSITION, LOGPVALUE)) + geom_point()

iHS statistics plot

iHS Pvalue for outliers

計算群體之間的EHH值 xpEHH
- 計算 cross-population 的 EHH test奉狈。利用之前iHS檢測出的iES值卤唉。
- include_freq=T,we get the frequencies of alleles in our output, which might be useful if we want to see how selection is acting on a particular position

## perform xp-ehh
house_bac <- ies2xpehh(bac_scan, house_scan,
                       popname1 = "bactrianus", popname2 = "house",
                       include_freq = T)
#PLOT the xpEHH values
ggplot(house_bac, aes(POSITION, XPEHH_bactrianus_house)) + geom_point()

image

負數(shù)值代表在pop2(house in this case)中的強烈的選擇信號。

image

檢測受選擇區(qū)域中的haplotype structure

# find the highest hit 以最顯著的位點做示例
hit <- house_bac %>% arrange(desc(LOGPVALUE)) %>% top_n(1)
# get SNP position
x <- hit$position # POSITION 19191935

# detect the position which the selection occured in the haplotype objects
marker_id_h <- which(house_hh_f@positions == x)
marker_id_b <- which(bac_hh_f@positions == x)

# calculate the bifurcation of haplotypes around our site of selection
house_furcation <- calc_furcation(house_hh_f, mrk = marker_id_h)
bac_furcation <- calc_furcation(bac_hh_f, mrk = marker_id_b)
# plot the bifurcation plot
plot(house_furcation, xlim = c(19.18E+6, 19.22E+6))
plot(bac_furcation, xlim = c(19.18E+6, 19.22E+6))

image

house_furcation

image

bac_furcation

# calculate the haplotype length around our signature of selection.
house_haplen <- calc_haplen(house_furcation)
bac_haplen <- calc_haplen(bac_furcation)

# see how haplotype structure differs between our two populations.

plot(house_haplen)
plot(bac_haplen)

image

house_furcation

image

bac_furcation

the blue haplotype is much larger around this target and is also more numerous in the European house sparrow.

輸出數(shù)據(jù)

# write out house bactrianus xpEHH
house_bac <- as_tibble(house_bac)
colnames(house_bac) <- tolower(colnames(house_bac))
write_tsv(house_bac, "./house_bac_xpEHH.tsv")

https://speciationgenomics.github.io/

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末仁期，一起剝皮案震驚了整個濱河市桑驱，隨后出現(xiàn)的幾起案子竭恬，更是在濱河造成了極大的恐慌，老刑警劉巖熬的，帶你破解...
沈念sama閱讀 216,324評論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件痊硕，死亡現(xiàn)場離奇詭異，居然都是意外死亡押框，警方通過查閱死者的電腦和手機岔绸，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,356評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來橡伞，“玉大人盒揉，你說我怎么就攤上這事《遗牵” “怎么了刚盈？”我有些...
開封第一講書人閱讀 162,328評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長挂脑。經(jīng)常有香客問我藕漱，道長，這世上最難降的妖魔是什么崭闲？我笑而不...
開封第一講書人閱讀 58,147評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任谴分，我火速辦了婚禮，結(jié)果婚禮上镀脂，老公的妹妹穿的比我還像新娘牺蹄。我一直安慰自己，他們只是感情好薄翅，可當我...
茶點故事閱讀 67,160評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布沙兰。她就那樣靜靜地躺著，像睡著了一般翘魄。火紅的嫁衣襯著肌膚如雪鼎天。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,115評論 1贊 296
城市分裂傳說
那天暑竟，我揣著相機與錄音斋射，去河邊找鬼。笑死但荤，一個胖子當著我的面吹牛罗岖，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播腹躁，決...
沈念sama閱讀 40,025評論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼桑包，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了纺非？” 一聲冷哼從身側(cè)響起哑了，我...
開封第一講書人閱讀 38,867評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤赘方，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后弱左，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體窄陡，經(jīng)...
沈念sama閱讀 45,307評論 1贊 310
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,528評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年拆火，在試婚紗的時候發(fā)現(xiàn)自己被綠了跳夭。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,688評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡榜掌，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出乘综，到底是詐尸還是另有隱情憎账，我是刑警寧澤，帶...
沈念sama閱讀 35,409評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布卡辰，位于F島的核電站胞皱，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏九妈。R本人自食惡果不足惜反砌，卻給世界環(huán)境...
茶點故事閱讀 41,001評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望萌朱。院中可真熱鬧宴树，春花似錦、人聲如沸晶疼。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,657評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽翠霍。三九已至锭吨，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間寒匙，已是汗流浹背零如。一陣腳步聲響...
開封第一講書人閱讀 32,811評論 1贊 268
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留锄弱，地道東北人考蕾。一個月前我還...
沈念sama閱讀 47,685評論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長得像会宪，于是被迫代替她去往敵國和親辕翰。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,573評論 2贊 353

基于單體型haplotypes的群體選擇信號的檢測——EHH & iHS

選擇壓力分析基本原理

兩個亞群體之間的比較

基于haplotype單體型的比較

rehh的實踐

推薦閱讀更多精彩內(nèi)容