2023-03-21 | Dsuite做D及f4-ratio統(tǒng)計(jì)量

Dsuite原理:

  • D值(即ABBA統(tǒng)計(jì)量)和f4-ratio統(tǒng)計(jì)可以表示為適用于四個(gè)分類群的雙等位基因SNP:P1,P2,P3,O,拓?fù)涫?(((P1,P2),P3),O)麸粮。
  • 其中外類群O攜帶祖先等位基因A荣赶,衍生等位基因用B表示枝恋。BBAA,ABBA,BABA分別代表四個(gè)分類群攜帶等位的三種模式段标。
  • 在沒有基因流的零假設(shè)下沃但,由于具有相同頻率的不完全譜系分類拐辽,預(yù)計(jì)P3與P1或P2共享衍生等位基因B的兩種模式ABBA和BABA的頻率相等拣挪,如果ABBA和BABA的頻率有顯著差異則代表在P3和P1或P2間存在基因漸滲。
  • D=(nABBA-nBABA)/(nABBA+nBABA)俱诸;在外群對(duì)于祖先等位基因A是固定的(外群中B的頻率為0)假設(shè)下菠劝,D統(tǒng)計(jì)量是等位基因模式計(jì)數(shù)的歸一化差異。
  • 如果外群中衍生等位基因B不為0睁搭,則Dsuite的D值是Patterson’s D赶诊,適用于無根的四分類群樹。
    基因流推斷 —— Dsuite | 生信技工 (yanzhongsino.github.io)

Dsuite的使用:
/home/sll/software/Dsuite/Build/Dsuite

尋找系統(tǒng)中高版本的libstdc++.so: find / -name "libstdc++.so*"
激活環(huán)境:因?yàn)榉?wù)器的/lib64/libstdc++.so.6版本過老园骆,所以這里使用我的conda下的版本

export LD_LIBRARY_PATH=/home/sll/miniconda3/pkgs/libstdcxx-ng-12.1.0-ha89aaad_16/lib:$LD_LIBRARY_PATH

準(zhǔn)備兩列的表格舔痪,第一列為樣本ID,第二列為群體ID(需指定外群Outgroup锌唾,也就是樹的根)锄码,想屏蔽的個(gè)體用第二列xxx表示,注意群體ID不要包含“. - 空格”等字符晌涕,可以有下劃線_
否則滋捶,F(xiàn)branch會(huì)報(bào)錯(cuò)

1、Dsuite Dtrios模塊:

為所有可能的種群/物種三重組合計(jì)算D和f4-ratio統(tǒng)計(jì)量(ABBA-BABA)
建議分染色體計(jì)算余黎,然后使用DtriosCombine 模塊將各染色體結(jié)果合并

/home/sll/software/Dsuite/Build/Dsuite Dtrios sample-select.vcf d.txt -t sample.ML.tree.treeout -o sample

-t 物種樹文件重窟,可用treemix生成,根為outgroup,且m設(shè)為0惧财,不考慮基因流
-o sample:指定輸出文件前綴巡扇,默認(rèn)是sets
-p 5:如果樣品中包含pool-seq數(shù)據(jù),-p用于設(shè)置最小深度垮衷,設(shè)置后從等位基因深度估計(jì)群體的等位基因頻率厅翔。

D和f4-ratio結(jié)果包含在.Dmin.txt文件中

DtriosCombine 模塊對(duì)Dtrios結(jié)果合并:
/home/sll/software/Dsuite/Build/Dsuite DtriosCombine -t sample.ML.tree.treeout -o sample_all DminFile1.txt DminFile2.txt DminFile3.txt

-o, --out-prefix=OUT_FILE_PREFIX       輸出文件前綴,默認(rèn)為 "out"
-n, --run-name                         看不懂
-t , --tree=TREE_FILE.nwk              樹文件
-s , --subset=start,length             只進(jìn)行指定長(zhǎng)度部分的合并
2帘靡、Dsuite Dinvestigate:

用于對(duì)感興趣滲入組合的基因組區(qū)域的D值的計(jì)算知给,看哪些區(qū)域發(fā)生了滲入

/home/sll/software/Dsuite/Build/Dsuite Dinvestigate -w 50,25 INPUT_FILE.vcf.gz SETS.txt test_trios.txt

Outputs D, f_d, f_dM, and d_f in genomic windows
 SETS.txt文件有兩列 : SAMPLE_ID    POPULATION_ID
test_trios.txt包含三個(gè)群體(除外群,外群在SETS.txt文件中已經(jīng)指定)的名稱:
POP1   POP2    POP3
There can be multiple lines and then the program generates multiple ouput files, named like POP1_POP2_POP3_localFstats_SIZE_STEP.txt

-h, --help                              display this help and exit
-w SIZE,STEP --window=SIZE,STEP         (required)設(shè)置移動(dòng)的窗口及步長(zhǎng)大小 (default: 50,25)
-n, --run-name                          run-name will be included in the output file name
3、Dsuite Fbranch:

是一種啟發(fā)式方法,執(zhí)行f-branch計(jì)算涩赢,用于解釋f4-ratio相關(guān)結(jié)果

/home/sll/software/Dsuite/Build/Dsuite Fbranch sample.ML.tree.treeout sample_tree.txt > fbranch.out

fbranch.out:f-branch統(tǒng)計(jì)量保存成矩陣格式

用dtools.py腳本繪制f-branch圖

/home/sll/software/Dsuite/utils/dtools.py fbranch.out sample.ML.tree.treeout --outgroup Outgroup --use_distances --dpi 1200 --tree-label-size 30

–outgroup:指定外類群(與fbranch.out和species.newick一致戈次,一般是Outgroup)
–use_distances:畫樹時(shí)使用newick文件里節(jié)點(diǎn)距離
–dpi:設(shè)置png分辨率,有些期刊投稿要求1200筒扒,800怯邪,600不等;最好高點(diǎn)花墩。
–tree-label-size:設(shè)置樹節(jié)點(diǎn)標(biāo)簽大小
結(jié)果展示:
Fbranch.png
  • 真正的物種樹作為數(shù)據(jù)模擬的輸入文件顯示在圖的側(cè)邊悬秉。物種樹在 y 軸以“展開”的形式進(jìn)行展示,所以每一個(gè)分枝包括內(nèi)部分枝都指向矩陣中對(duì)應(yīng)的行和推斷的 f-brach 統(tǒng)計(jì)值冰蘑。
  • 圖的上方和左側(cè)為群體/物種系統(tǒng)發(fā)育樹和泌,其中左側(cè)為展開的群體/物種樹。矩陣中色塊顏色深淺表示滲入比例祠肥,顏色越深表示滲入比例越高武氓,越淺滲入比例越低。
腳本自用:

Dsuite.sh

export LD_LIBRARY_PATH=/home/sll/miniconda3/pkgs/libstdcxx-ng-12.1.0-ha89aaad_16/lib:$LD_LIBRARY_PATH
Dsuite="/home/sll/software/Dsuite"

$Dsuite/Build/Dsuite Dtrios sample-select.vcf d.txt -t sample.ML.tree.treeout -o sample

$Dsuite/Build/Dsuite Fbranch sample.ML.tree.treeout sample_tree.txt > fbranch.out

$Dsuite/utils/dtools.py fbranch.out sample.ML.tree.treeout --outgroup Outgroup --use_distances --dpi 1200 --tree-label-size 30
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子奢啥,更是在濱河造成了極大的恐慌,老刑警劉巖刘莹,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)美尸,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來旬迹,“玉大人火惊,你說我怎么就攤上這事”伎眩” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵尸疆,是天一觀的道長(zhǎng)椿猎。 經(jīng)常有香客問我,道長(zhǎng)寿弱,這世上最難降的妖魔是什么犯眠? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮症革,結(jié)果婚禮上筐咧,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好量蕊,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布铺罢。 她就那樣靜靜地躺著,像睡著了一般残炮。 火紅的嫁衣襯著肌膚如雪韭赘。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天势就,我揣著相機(jī)與錄音泉瞻,去河邊找鬼。 笑死苞冯,一個(gè)胖子當(dāng)著我的面吹牛袖牙,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播舅锄,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼贼陶,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了巧娱?” 一聲冷哼從身側(cè)響起碉怔,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎禁添,沒想到半個(gè)月后撮胧,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡老翘,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年芹啥,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片铺峭。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡墓怀,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出卫键,到底是詐尸還是另有隱情傀履,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布莉炉,位于F島的核電站钓账,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏絮宁。R本人自食惡果不足惜梆暮,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望绍昂。 院中可真熱鬧啦粹,春花似錦偿荷、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至泪蔫,卻和暖如春棒旗,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背撩荣。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來泰國(guó)打工铣揉, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人餐曹。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓逛拱,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親台猴。 傳聞我的和親對(duì)象是個(gè)殘疾皇子朽合,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容