Bayenv 是一種基于環(huán)境相關(guān)性識(shí)別與局部適應(yīng)相關(guān)位點(diǎn)的軟件,主要用于檢測(cè)那些在局部適應(yīng)過(guò)程中可能發(fā)揮重要作用的遺傳標(biāo)記(如 SNP)戈次。
和環(huán)境相關(guān)性的分析這里暫不介紹轩勘,僅介紹如何尋找在群體之間表現(xiàn)出極端差異的遺傳位點(diǎn)。
但是怯邪,由于以下因素使得這種分析變得復(fù)雜:
樣本量差異:不同群體樣本量不均可能引入偏差绊寻。
中性進(jìn)化信號(hào):由于群體間的共有歷史(如共同祖先)和基因流動(dòng),等位基因頻率之間可能自然相關(guān)擎颖,而不是選擇的結(jié)果榛斯。
BAYENV2 可以通過(guò)計(jì)算位點(diǎn)的 XTX 值,來(lái)鑒定在群體之間存在顯著分化的位點(diǎn)搂捧。
XTX 統(tǒng)計(jì)量與?FST?統(tǒng)計(jì)量類似驮俗,但它通過(guò)對(duì)等位基因頻率進(jìn)行標(biāo)準(zhǔn)化,以控制群體結(jié)構(gòu)和樣本不均衡允跑,從而提供更加精確的選擇信號(hào)檢測(cè)王凑。
Bayenv 首先從基因組范圍內(nèi)的一組中性標(biāo)記(如同義突變或隨機(jī)選取的一組 SNP)中,估計(jì)群體間等位基因頻率的協(xié)方差矩陣聋丝。該協(xié)方差矩陣反映了由于共享歷史和基因流動(dòng)導(dǎo)致的等位基因頻率之間的相關(guān)性索烹,并構(gòu)建了一個(gè)中性模型,作為后續(xù)分析的基準(zhǔn)弱睦。
而后對(duì)每個(gè) SNP百姓,使用貝葉斯方法,將實(shí)際的等位基因頻率差異與中性協(xié)方差矩陣進(jìn)行比較况木。如果一個(gè) SNP 的等位基因頻率差異顯著超出中性協(xié)方差模型的期望值垒拢,表明該 SNP 在群體間表現(xiàn)出極端差異。
最后生成?XTX?統(tǒng)計(jì)量:XTX是類似于 FST 的統(tǒng)計(jì)量火惊,用于量化每個(gè) SNP 的群體間差異求类。與 FST 不同的是,XTX 已經(jīng)校正了群體間遺傳結(jié)構(gòu)的影響屹耐。SNP 的 XTX 值越高尸疆,表示它的差異程度越大,可能受到選擇的作用惶岭。
分析流程:
首先將 vcf 文件進(jìn)行格式轉(zhuǎn)換寿弱,轉(zhuǎn)換為 BAYENV2 可識(shí)別的格式,官方文件推薦使用 PGDSpider 進(jìn)行格式轉(zhuǎn)換按灶。
PGDSpider 的使用見:PGDSpider 進(jìn)行格式轉(zhuǎn)換 - 簡(jiǎn)書 (jianshu.com)
而后計(jì)算
## 計(jì)算協(xié)方差矩陣示例
./bayenv2 -i SNPSFILE -p NUMPOPS -k 100000 -r 63479 > matrix.out
## 計(jì)算群體間分化指數(shù)?XTX 統(tǒng)計(jì)量
bayenv2? ?-i? ?SNPFILE? ?-m? ?MATRIXFILE? ?-e? ?ENVIRONFILE? ?-n? ?1? ?-p? ?NUMPOPS? ?-k? ?100000? ?-t? ?-X? ?-r? 13258
必選參數(shù):
-i? SNPFILE? ? ? 輸入文件脖捻,包含 SNP 數(shù)據(jù)。
-k? ?NUMRUNS? ??迭代次數(shù)兆衅。
-p? ?NUMPOPS? ??種群數(shù)量。
# test mode 下必需參數(shù)
-m? ?MATRIXFILE? ? 矩陣文件,是 Bayenv2.0 的輸出文件羡亩。
-e? ?ENVIRONFILE? ??環(huán)境文件,用于指定環(huán)境變量信息雷袋。
-n? ?NUMENVIRON? ??環(huán)境變量的數(shù)量辞居。
可選參數(shù):
-s? ?SAMPLEFILE? ??樣本大小文件,每個(gè)種群的樣本數(shù)鸠删。pool mode 下必需刃泡。
-r? ?SEED? ?隨機(jī)種子碉怔,用于確保結(jié)果的可重復(fù)性。
-t? ? 進(jìn)入 test mode桨踪,計(jì)算單個(gè) SNP 的 Z 值芹啥、Bayes 因子(BF)或相關(guān)系數(shù)(ρ)。
-x? ?啟用 pool mode纳账,用于處理來(lái)自種群池測(cè)序的輸入數(shù)據(jù)疏虫。
-o? ?OUTFILE? ?自定義輸出文件名稱啤呼。僅在測(cè)試模式下可用。
-f? ?將標(biāo)準(zhǔn)化的等位基因頻率寫入文件翅敌。
-c? ??除了計(jì)算 Bayes 因子(BF)惕蹄,還計(jì)算相關(guān)系數(shù)(ρ)治专。
-X? ??計(jì)算矩陣XTXX^T XXTX张峰。
-z? ? 在 test mode?下為未分組數(shù)據(jù)計(jì)算 Z 值喘批,僅支持單個(gè)環(huán)境變量。