-2.
在一篇講泥炭蘚的MBE看到了dfoil的使用
《Extensive Genome-Wide Phylogenetic Discordance Is Due to Incomplete Lineage Sorting and Not Ongoing Introgression in a Rapidly Radiated Bryophyte Genus》
文章的邏輯是這樣的:
基因樹長得和物種樹不一樣疙渣,核基因樹長得和細(xì)胞器基因樹不一樣匙奴,為了知道為啥長得不一樣就做了基因流
D統(tǒng)計的值都不是很高,但是很顯著妄荔。QuIBL推斷的結(jié)果是這種系統(tǒng)發(fā)育的不一致主要是因為不完全譜系分選導(dǎo)致泼菌,而不是物種形成后的漸滲(關(guān)于QuIBL的這句話是文章原話,翻譯過來的)啦租。
假設(shè)基因流動是正在進(jìn)行的或最近的哗伯,它可能會被限制在密切相關(guān)的物種,因為自分歧以來篷角,生殖障礙隨著時間的推移而積累-CoyneJA, Orr HA. 2004. Speciation. Sunderland (MA): Sinauer Associates
D統(tǒng)計值與物種分化呈負(fù)相關(guān)焊刹,而作者做出來D與Fst呈正相關(guān),再加上之前做的admixture看不出來有近期基因流
綜上内地,推斷 可能是祖先基因流伴澄。于是要驗證這個推斷
所以做了Dfoil (https://github.com/jbpease/dfoil),這個軟件的優(yōu)點是能推斷P1/P2的祖先和P3阱缓、P4之間有沒有基因流(但不能判斷祖先基因流的方向),以及非祖先基因流的方向
James B Pease, Matthew W. Hahn. 2015."Detection and Polarization of Introgression in a Five-taxon Phylogeny" Systematic Biology. 64 (4): 651-662.http://www.dx.doi.org/10.1093/sysbio/syv023 doi: 10.1093/sysbio/syv023
dfoil要求物種滿足下圖所示系統(tǒng)發(fā)生關(guān)系
((P1,P2),(P3,P4),O)且P3和P4分化的時間不能晚于P1P2
結(jié)果如下:
不同顏色背景的举农,是不同屬的物種荆针,藍(lán)色這個屬正好也是前面核基因樹和細(xì)胞器基因樹對不上的物種
數(shù)字表示窗口中支持祖先基因流的窗口的比例,總之就是推出了藍(lán)色物種的祖先和紅色物種有基因流
當(dāng)然除了這個證據(jù)颁糟,作者還列舉了第二個證據(jù):
“漸滲區(qū)域的長度(length of consecutive introgressed region)可以用來推斷漸滲發(fā)生的相對時間[1,2,3]航背,假設(shè)在近期發(fā)生了漸滲,預(yù)期在基因組中會發(fā)現(xiàn)更長的漸滲片段棱貌,隨著時間推移由于重組玖媚,這些片段會分裂成更小的片段[4]”
[1]Barlow A, Cahill JA, Hartmann S, Theunert C, Xenikoudakis G, Fortes GG, Paijmans JLA, Rabeder G, Frischauf C, Grandal-d’Anglade A, et al. 2018. Partial genomic survival of cave bears in living brown bears.Nat Ecol Evol. 2(10):1563–1570.
[2]Moodley Y, Westbury MV, Russo I-RM,Gopalakrishnan S, RakotoariveloA, Olsen R-A, Prost S, Tunstall T, RyderOA, Dal? en L, et al. 2020.Interspecific gene flow and the evolution of specialisation in black and white rhinoceros. Mol Biol Evol. 37(11):3105–3117
[3]Westbury MV , Hartmann S .Barlow A ,Preick M , Ridush B , Nagel D ,Rathgeber T, Ziegler R, Baryshnikov G, Sheng G,et al. 2020. Hyena paleogenomes reveal a complex evolutionary history of cross-continental gene flow between spotted and cave hyena. Sci Adv.6(11):eaay0456
[4]We Rcek K, Hartmann S, Paijmans JLA, Taron U, Xenikoudakis G, Cahill JA, Heintzman PD, Shapiro B, Baryshnikov G, Bunevich AN, et al. 2017.Complex admixture preceded and followed the extinction of wisent in the wild. Mol Biol Evol. 34:598–612.
作者是咋做的呢,他看那些表示有漸滲的窗口是不是連在一塊的
驚人的發(fā)現(xiàn)絕大部分窗口都是單個單個的婚脱,更映照了是早期基因流今魔,發(fā)生在祖先譜系中
綜上所述, these results strongly support the hypothesis of ancient introgression among the ancestral Sphagnum species.
泥潭蘚廣泛的系統(tǒng)發(fā)育不一致是由于ILS和不持續(xù)基因流導(dǎo)致的,點題障贸。
-1? Dfoil的下載與安裝
Dfoil下載下來就能直接用了错森,主體是幾個腳本,詳細(xì)參數(shù)參見user manual
git clone https://www.github.com/jbpease/dfoil
0. 輸入文件的準(zhǔn)備
Dfoil要求的輸入文件是這樣的篮洁,每個物種一行fasta序列涩维,并且要對齊,上面那篇文章是每個物種選了一個sequcencing coverage最高的個體來做袁波。
用ANGSD生成每個物種的共有序列瓦阐,然后進(jìn)行過濾蜗侈,過濾小于1M - 輸出結(jié)果每個物種都會對齊,也用不著mafft()睡蟋,然后按100kb窗口切分宛篇,接著把窗口里面N超過50%的過濾掉,最后再把一個窗口的放到一塊薄湿。(這一步我也不清楚叫倍,輸入文件是很久之前師姐就準(zhǔn)備好的)
-3.具體做法是,每個物種挑選一個個體豺瘤,用bwa mem比到同一個參考基因組上吆倦,每個物種就獲得了一個bam文件
-2. angsd -doFasta2 -i 1.bam -o 1.fasta 把每個bam轉(zhuǎn)成(共有)序列,實際上也是比對齊的序列
-1. 把比對齊的序列劃窗口
最后數(shù)據(jù)有600個窗口坐求,每個窗口(每個fasta文件)有9個物種(準(zhǔn)確的說9個個體)
用dfoil的時候fasta文件里面只允許有5個個體蚕泽,所以
0-1? samtools faidx input.fasta P1 P2 P3 P4 O > tmp.fasta? #提取5個物種
0-2? awk '!/^>/ { printf "%s", $0; n = "\n" } /^>/ { print n $0; n = "" } END { printf "%s", n }' tmp.fasta > clean.fasta? #把多行fasta變成一行fasta,并且保留原來的頭
1.
python2? /PATH/fasta2dfoil.py --out xx.counts --names P1,P2,P3,P4,O 1.fa 2.fa 3.fa ......
/PATH/dfoil.py --infile xx.counts --out xx.out --plot xx.pdf? #plot這個參數(shù)不太重要桥嗤,它畫的圖我感覺也用不上
這個xx.counts就是我們要的結(jié)果了须妻,總共600行,因為我們有600個窗口
introgression這一列如果不是none泛领,就表明這個窗口支持有基因流荒吏,后面幾列就是基因流發(fā)生的方向與位置,introg23就是指P2到P3的基因流渊鞋。introg123就是指P1P2祖先和P3之間是基因流绰更。
2.可視化
這一塊可以參照上文提到的MBE的泥炭蘚
B圖是這么多種物種組合,基因流都是啥款式的锡宋,是明顯看到P12的祖先到P3的基因流很突出儡湾,C圖就是這么突出的基因流,具體是那些P1 P2 P3执俩。
C圖說過了
我們可以統(tǒng)計每種基因流窗口的比例徐钠,然后參照著這兩個圖畫出來,略役首、
附原文對B圖 C圖的注解