Dfoil - 推斷祖先基因流

-2.

在一篇講泥炭蘚的MBE看到了dfoil的使用

《Extensive Genome-Wide Phylogenetic Discordance Is Due to Incomplete Lineage Sorting and Not Ongoing Introgression in a Rapidly Radiated Bryophyte Genus》

文章的邏輯是這樣的:

基因樹長得和物種樹不一樣疙渣,核基因樹長得和細(xì)胞器基因樹不一樣匙奴,為了知道為啥長得不一樣就做了基因流


D統(tǒng)計的值都不是很高,但是很顯著妄荔。QuIBL推斷的結(jié)果是這種系統(tǒng)發(fā)育的不一致主要是因為不完全譜系分選導(dǎo)致泼菌,而不是物種形成后的漸滲(關(guān)于QuIBL的這句話是文章原話,翻譯過來的)啦租。

假設(shè)基因流動是正在進(jìn)行的或最近的哗伯,它可能會被限制在密切相關(guān)的物種,因為自分歧以來篷角,生殖障礙隨著時間的推移而積累-CoyneJA, Orr HA. 2004. Speciation. Sunderland (MA): Sinauer Associates

D統(tǒng)計值與物種分化呈負(fù)相關(guān)焊刹,而作者做出來D與Fst呈正相關(guān),再加上之前做的admixture看不出來有近期基因流

綜上内地,推斷 可能是祖先基因流伴澄。于是要驗證這個推斷


所以做了Dfoil (https://github.com/jbpease/dfoil),這個軟件的優(yōu)點是能推斷P1/P2的祖先和P3阱缓、P4之間有沒有基因流(但不能判斷祖先基因流的方向),以及非祖先基因流的方向

James B Pease, Matthew W. Hahn. 2015."Detection and Polarization of Introgression in a Five-taxon Phylogeny" Systematic Biology. 64 (4): 651-662.http://www.dx.doi.org/10.1093/sysbio/syv023 doi: 10.1093/sysbio/syv023

dfoil要求物種滿足下圖所示系統(tǒng)發(fā)生關(guān)系

((P1,P2),(P3,P4),O)且P3和P4分化的時間不能晚于P1P2


結(jié)果如下:


不同顏色背景的举农,是不同屬的物種荆针,藍(lán)色這個屬正好也是前面核基因樹和細(xì)胞器基因樹對不上的物種

數(shù)字表示窗口中支持祖先基因流的窗口的比例,總之就是推出了藍(lán)色物種的祖先和紅色物種有基因流

當(dāng)然除了這個證據(jù)颁糟,作者還列舉了第二個證據(jù):

“漸滲區(qū)域的長度(length of consecutive introgressed region)可以用來推斷漸滲發(fā)生的相對時間[1,2,3]航背,假設(shè)在近期發(fā)生了漸滲,預(yù)期在基因組中會發(fā)現(xiàn)更長的漸滲片段棱貌,隨著時間推移由于重組玖媚,這些片段會分裂成更小的片段[4]”

[1]Barlow A, Cahill JA, Hartmann S, Theunert C, Xenikoudakis G, Fortes GG, Paijmans JLA, Rabeder G, Frischauf C, Grandal-d’Anglade A, et al. 2018. Partial genomic survival of cave bears in living brown bears.Nat Ecol Evol. 2(10):1563–1570.

[2]Moodley Y, Westbury MV, Russo I-RM,Gopalakrishnan S, RakotoariveloA, Olsen R-A, Prost S, Tunstall T, RyderOA, Dal? en L, et al. 2020.Interspecific gene flow and the evolution of specialisation in black and white rhinoceros. Mol Biol Evol. 37(11):3105–3117

[3]Westbury MV , Hartmann S .Barlow A ,Preick M , Ridush B , Nagel D ,Rathgeber T, Ziegler R, Baryshnikov G, Sheng G,et al. 2020. Hyena paleogenomes reveal a complex evolutionary history of cross-continental gene flow between spotted and cave hyena. Sci Adv.6(11):eaay0456

[4]We Rcek K, Hartmann S, Paijmans JLA, Taron U, Xenikoudakis G, Cahill JA, Heintzman PD, Shapiro B, Baryshnikov G, Bunevich AN, et al. 2017.Complex admixture preceded and followed the extinction of wisent in the wild. Mol Biol Evol. 34:598–612.


作者是咋做的呢,他看那些表示有漸滲的窗口是不是連在一塊的

這個圖是拿表的數(shù)據(jù)畫的

驚人的發(fā)現(xiàn)絕大部分窗口都是單個單個的婚脱,更映照了是早期基因流今魔,發(fā)生在祖先譜系中

綜上所述, these results strongly support the hypothesis of ancient introgression among the ancestral Sphagnum species.


泥潭蘚廣泛的系統(tǒng)發(fā)育不一致是由于ILS和不持續(xù)基因流導(dǎo)致的,點題障贸。


-1? Dfoil的下載與安裝

Dfoil下載下來就能直接用了错森,主體是幾個腳本,詳細(xì)參數(shù)參見user manual

git clone https://www.github.com/jbpease/dfoil



0. 輸入文件的準(zhǔn)備

Dfoil要求的輸入文件是這樣的篮洁,每個物種一行fasta序列涩维,并且要對齊,上面那篇文章是每個物種選了一個sequcencing coverage最高的個體來做袁波。

用ANGSD生成每個物種的共有序列瓦阐,然后進(jìn)行過濾蜗侈,過濾小于1M - 輸出結(jié)果每個物種都會對齊,也用不著mafft()睡蟋,然后按100kb窗口切分宛篇,接著把窗口里面N超過50%的過濾掉,最后再把一個窗口的放到一塊薄湿。(這一步我也不清楚叫倍,輸入文件是很久之前師姐就準(zhǔn)備好的)

-3.具體做法是,每個物種挑選一個個體豺瘤,用bwa mem比到同一個參考基因組上吆倦,每個物種就獲得了一個bam文件

-2. angsd -doFasta2 -i 1.bam -o 1.fasta 把每個bam轉(zhuǎn)成(共有)序列,實際上也是比對齊的序列

-1. 把比對齊的序列劃窗口

seqkit可以實現(xiàn). 這里表示窗口為4.步長也為4



最后數(shù)據(jù)有600個窗口坐求,每個窗口(每個fasta文件)有9個物種(準(zhǔn)確的說9個個體)

用dfoil的時候fasta文件里面只允許有5個個體蚕泽,所以

0-1? samtools faidx input.fasta P1 P2 P3 P4 O > tmp.fasta? #提取5個物種

0-2? awk '!/^>/ { printf "%s", $0; n = "\n" } /^>/ { print n $0; n = "" } END { printf "%s", n }' tmp.fasta > clean.fasta? #把多行fasta變成一行fasta,并且保留原來的頭


1.

python2? /PATH/fasta2dfoil.py --out xx.counts --names P1,P2,P3,P4,O 1.fa 2.fa 3.fa ......

/PATH/dfoil.py --infile xx.counts --out xx.out --plot xx.pdf? #plot這個參數(shù)不太重要桥嗤,它畫的圖我感覺也用不上

這個xx.counts就是我們要的結(jié)果了须妻,總共600行,因為我們有600個窗口

introgression這一列如果不是none泛领,就表明這個窗口支持有基因流荒吏,后面幾列就是基因流發(fā)生的方向與位置,introg23就是指P2到P3的基因流渊鞋。introg123就是指P1P2祖先和P3之間是基因流绰更。


2.可視化

這一塊可以參照上文提到的MBE的泥炭蘚


B圖是這么多種物種組合,基因流都是啥款式的锡宋,是明顯看到P12的祖先到P3的基因流很突出儡湾,C圖就是這么突出的基因流,具體是那些P1 P2 P3执俩。

C圖說過了

我們可以統(tǒng)計每種基因流窗口的比例徐钠,然后參照著這兩個圖畫出來,略役首、


附原文對B圖 C圖的注解


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末尝丐,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子宋税,更是在濱河造成了極大的恐慌摊崭,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件杰赛,死亡現(xiàn)場離奇詭異呢簸,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門根时,熙熙樓的掌柜王于貴愁眉苦臉地迎上來瘦赫,“玉大人,你說我怎么就攤上這事蛤迎∪肥” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵替裆,是天一觀的道長校辩。 經(jīng)常有香客問我,道長辆童,這世上最難降的妖魔是什么宜咒? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮把鉴,結(jié)果婚禮上故黑,老公的妹妹穿的比我還像新娘。我一直安慰自己庭砍,他們只是感情好场晶,可當(dāng)我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著怠缸,像睡著了一般诗轻。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上凯旭,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天概耻,我揣著相機(jī)與錄音,去河邊找鬼罐呼。 笑死,一個胖子當(dāng)著我的面吹牛侦高,可吹牛的內(nèi)容都是我干的嫉柴。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼奉呛,長吁一口氣:“原來是場噩夢啊……” “哼计螺!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起瞧壮,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤登馒,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后咆槽,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體陈轿,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了麦射。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蛾娶。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖潜秋,靈堂內(nèi)的尸體忽然破棺而出蛔琅,到底是詐尸還是另有隱情,我是刑警寧澤峻呛,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布罗售,位于F島的核電站,受9級特大地震影響钩述,放射性物質(zhì)發(fā)生泄漏寨躁。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一切距、第九天 我趴在偏房一處隱蔽的房頂上張望朽缎。 院中可真熱鬧,春花似錦谜悟、人聲如沸话肖。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽最筒。三九已至,卻和暖如春蔚叨,著一層夾襖步出監(jiān)牢的瞬間床蜘,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工蔑水, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留邢锯,地道東北人。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓搀别,卻偏偏與公主長得像丹擎,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子歇父,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容