系譜重建 colony 使用指南

最近在用Colony掸驱,和Cervus有所區(qū)別灵再。下面是翻譯自Colony的用戶指南笼蛛,供理解學(xué)習(xí)塘匣。軟件下載地址官方COLONY | Zoological Society of London (ZSL)百度云鏈接 提取碼: i6fn

1.介紹

Colony程序可以在多個(gè)計(jì)算機(jī)平臺(tái)上運(yùn)行取劫,包括Windows匆笤、Mac、Linux谱邪、Unix炮捧。本文檔專為Windows用戶準(zhǔn)備,但對(duì)其他平臺(tái)的用戶也很有用惦银。

1.1概述

Colony是一個(gè)計(jì)算機(jī)程序咆课,利用一個(gè)似然法和兩個(gè)成對(duì)似然法,使用個(gè)體之間多基因座基因型扯俱,分配/推斷親子關(guān)系书蚪、同胞關(guān)系和克隆(重復(fù)【克隆或重復(fù)指的是基因型完全一樣的個(gè)體】)迅栅。這些方法在下面的文章中有正式的描述殊校。
文章略。
Colony可用于估計(jì)全同胞和半同胞關(guān)系读存、推斷克隆或重復(fù)個(gè)體为流、分配親子關(guān)系、重建親本基因型让簿、推斷交配系統(tǒng)(多配偶/一夫一妻制敬察、自交率)和生殖偏斜,以及重新估計(jì)每個(gè)標(biāo)記位點(diǎn)的基因分型錯(cuò)誤尔当。它適用于二倍體和單倍體二倍體物種莲祸,雌雄同株和雌雄異株物種。只要稍微修改數(shù)據(jù)居凶,它也可以應(yīng)用于多倍體物種(Wang和Scribner虫给,2014年)。它可以使用有或無(wú)基因分型錯(cuò)誤的共顯性和顯性標(biāo)記數(shù)據(jù)侠碧。Colony的windows-gui版本也可以用來(lái)模擬具有特定親子關(guān)系結(jié)構(gòu)的基因型數(shù)據(jù)抹估,模擬的基因型數(shù)據(jù)可以用來(lái)檢查各種系譜重建方法的準(zhǔn)確性和標(biāo)記信息的充分性。
簡(jiǎn)言之弄兜,該方法假設(shè)將個(gè)體樣本細(xì)分為3個(gè)子樣本:后代(OFS)药蜻、候選雄性(CMS)和候選雌性(CFS)瓷式。OFS是必不可少的,而CMS和CFS都是可選的语泽。OFS中的個(gè)體被分配(聚集)到K1父系和K2母系(其中K1和K2未知)贸典,而CMS和CFS中的個(gè)體(如果可用)被分配或未分配到這些K1和K2家庭中。假設(shè)子代個(gè)體是重復(fù)的(或克隆體的成員)踱卵、全同胞(共享雙親)廊驼、半同胞(僅共享雙親中的一個(gè))或不相關(guān)的(不共享雙親),而候選個(gè)體【親本】被假定為彼此不相關(guān)惋砂,或者是雙親或不相關(guān)的妒挎。給后代。假設(shè)標(biāo)記處于連接平衡狀態(tài)西饵。違反這些假設(shè)可能會(huì)降低分析的能力酝掩,但可以通過(guò)使用更多的信息性標(biāo)記進(jìn)行補(bǔ)償(Wang,2004年)眷柔。例如期虾,關(guān)于被抽樣個(gè)體的性別和年齡的信息可能不可用。在這種情況下驯嘱,允許每個(gè)個(gè)體出現(xiàn)在所有3個(gè)子樣本中镶苞,并且在某些情況下,親子關(guān)系和親子關(guān)系仍然得到令人滿意的推斷(Wang&Santure 2009)鞠评。同樣宾尚,背景關(guān)系的存在(如表親關(guān)系和avunculate關(guān)系,這些關(guān)系被認(rèn)為是不存在的或與該方法無(wú)關(guān)的)可能會(huì)降低準(zhǔn)確性谢澈。然而,隨著標(biāo)記信息量的增加御板,其精度迅速提高锥忿。目前的模型解釋了哈代-溫伯格平衡的偏差。如果需要怠肋,近親交配(由于近親交配或自交敬鬓,或由于種群結(jié)構(gòu))可以與關(guān)系結(jié)構(gòu)一起計(jì)算和估計(jì)。
Colony程序的分析結(jié)果主要包括:OFS中個(gè)體間的全同胞和半同胞分配笙各;父子關(guān)系(如果有CMS)和母子關(guān)系(如果有CFS)分配钉答;OFS中的重復(fù)個(gè)體;每個(gè)子代的每個(gè)基因座上的基因型推斷杈抢;每個(gè)基因座上的基因型推斷数尿,不管它是否分配給CFS、CMS的候選人惶楼;每個(gè)后代的每個(gè)基因座可能的基因型錯(cuò)誤右蹦;分配給后代的候選人的每個(gè)基因座可能的基因型錯(cuò)誤诊杆;當(dāng)使用近交模型時(shí),近交和自受精(雌雄同株物種的自交率)何陆;考慮到推斷的關(guān)系晨汹,精確估計(jì)每個(gè)位點(diǎn)的基因分型錯(cuò)誤率;根據(jù)估計(jì)的兄弟姐妹頻率計(jì)算的有效種群規(guī)模贷盲。
軟件包Colony包括Windows的可執(zhí)行文件淘这、用戶指南、示例數(shù)據(jù)集和示例分析結(jié)果巩剖。Colony程序的計(jì)算部分用Fortran 90/95編寫铝穷,GUI前端用Visual Basic編寫。Windows GUI允許用戶準(zhǔn)備輸入數(shù)據(jù)和分析參數(shù)球及,運(yùn)行程序氧骤,查看分析結(jié)果饲化,并在運(yùn)行期間監(jiān)控和繪制中間結(jié)果戳稽。Linux和Mac平臺(tái)的Colony軟件包與Windows軟件包在同一個(gè)網(wǎng)站上提供。

1.2方法和軟件特點(diǎn)

當(dāng)前版本的Colony有以下特點(diǎn):允許親本多配沿彭。換言之镊尺,允許后代為母系半同胞朦佩、父系半同胞、全同胞庐氮、克掠锍怼(或重復(fù))和無(wú)親緣關(guān)系,并且所有這些關(guān)系都是共同推斷的弄砍;根據(jù)兄弟關(guān)系推斷克孪善琛(或重復(fù)),考慮基因分型錯(cuò)誤音婶;允許利用同胞關(guān)系同時(shí)推斷親子關(guān)系慨畸;利用Bayes定理,通過(guò)考慮3個(gè)子樣本中和之間重建的關(guān)系同時(shí)估計(jì)群體等位基因頻率衣式;考慮關(guān)系重建數(shù)據(jù)中的基因分型錯(cuò)誤和突變寸士;檢測(cè)單個(gè)基因型中的基因分型錯(cuò)誤和突變;精煉估計(jì)每個(gè)基因座的基因分型錯(cuò)誤率碴卧;推斷沒(méi)有基因型數(shù)據(jù)的個(gè)體(后代和推斷的父母)的基因型弱卡;適用于二倍體和單倍體物種,適用于雌雄同株和雌雄同株物種住册;適用于二倍體后代婶博、單倍體后代或兩者的樣本;允許和估計(jì)近交界弧,推斷雌雄同株物種的自交率凡蜻;全似然法和新似然評(píng)分法的選擇(Wang 2012)搭综;同胞分配的不同先驗(yàn)或無(wú)先驗(yàn)的選擇;根據(jù)同胞分配估計(jì)當(dāng)前有效種群大谢ā兑巾;同時(shí)使用共顯性和顯性標(biāo)記;利用已知關(guān)系與標(biāo)記數(shù)據(jù)忠荞;允許使用多個(gè)核/CPU進(jìn)行并行計(jì)算(通過(guò)OpenMP和MPI)蒋歌;模擬具有已知關(guān)系的2代或1代基因型數(shù)據(jù)集,以便通過(guò)群體或其他系譜重建程序進(jìn)行分析委煤;Windows GUI堂油;多個(gè)數(shù)據(jù)集的批處理運(yùn)行。

2.安裝(略)

3.經(jīng)驗(yàn)數(shù)據(jù)輸入-Windows GUI

本節(jié)介紹如何使用Colony的Windows GUI設(shè)置經(jīng)驗(yàn)數(shù)據(jù)集的Colony項(xiàng)目碧绞。在GUI中府框,所有輸入和輸出文件都被組織成“項(xiàng)目”。用戶在設(shè)置新項(xiàng)目時(shí)提供項(xiàng)目名稱讥邻,并在安裝colony程序的目錄中創(chuàng)建具有此名稱的文件夾迫靖。所有隨后的輸入文件和運(yùn)行colony之后,項(xiàng)目的輸出文件都放在這個(gè)項(xiàng)目文件夾中兴使。無(wú)法將項(xiàng)目文件夾移動(dòng)到其他位置系宜,以便Colony處理它。
GUI處理大型數(shù)據(jù)集的能力有限发魄,因?yàn)橐愿袷交谋砀裥问斤@示數(shù)據(jù)需要大量的內(nèi)存盹牧。對(duì)于大多數(shù)計(jì)算機(jī)來(lái)說(shuō),處理一個(gè)最多有2000個(gè)人和2000個(gè)位置的數(shù)據(jù)集應(yīng)該沒(méi)有問(wèn)題励幼。超出限制后汰寓,應(yīng)考慮輸入數(shù)據(jù)并以非GUI模式運(yùn)行,如下所述苹粟。
按照以下步驟設(shè)置新項(xiàng)目并將數(shù)據(jù)輸入到項(xiàng)目中踩寇。建議在運(yùn)行Colony創(chuàng)建新項(xiàng)目之前,以所需格式準(zhǔn)備下面描述的所有輸入文件六水。這些文件必須是純文本文件格式,使用逗號(hào)辣卒、制表符或空格作為分隔符掷贾。空行無(wú)效荣茫。Colony所要求的行內(nèi)容可以出現(xiàn)在多個(gè)連續(xù)的行中想帅,在行的末尾有一個(gè)行繼續(xù)標(biāo)記“&”。因此啡莉,符號(hào)“&”不能用于其他目的港准,例如在個(gè)體ID中旨剥。例如,個(gè)體3個(gè)位點(diǎn)的ID和基因型行可能是:
IndividualXXX 124 128 212 214 144 144
行可以排列成多個(gè)連續(xù)行浅缸,例如:
IndividualXXX &
124 128 212 214 &
144 144
注意轨帜,換行標(biāo)記“&”不應(yīng)位于字符串(如IndividualXXX)或數(shù)值(如124或12.54)內(nèi),并且應(yīng)始終以一個(gè)或多個(gè)空格作為前綴衩椒。

3.1新建項(xiàng)目

單擊File\rightarrowNew Project(或者蚌父,單擊新建項(xiàng)目工具菜單按鈕)打開(kāi)新建項(xiàng)目設(shè)置向?qū)В▓D1)。要求您提供一個(gè)項(xiàng)目名稱毛萌,該名稱應(yīng)該是一個(gè)包含少于40個(gè)字母和數(shù)字的字符串(項(xiàng)目名稱中不允許有空格苟弛、逗號(hào)、句號(hào)阁将、前斜杠和后斜杠等)膏秫。您還被問(wèn)及項(xiàng)目類型,這里應(yīng)該選擇“經(jīng)驗(yàn)數(shù)據(jù)分析”做盅。單擊“確定”按鈕時(shí)缤削,將在安裝了Colony的目錄中創(chuàng)建一個(gè)具有項(xiàng)目名稱的文件夾。所有輸入和輸出文件將存儲(chǔ)在此文件夾中言蛇。所有輸出文件將使用相同的項(xiàng)目名僻他,但擴(kuò)展名不同(可自行解釋)。下次運(yùn)行colony加載項(xiàng)目時(shí)腊尚,可以使用File\rightarrowOpen Project(或者吨拗,F(xiàn)ile\rightarrowRecent Projects,如果項(xiàng)目是最近的項(xiàng)目)打開(kāi)項(xiàng)目文件夾婿斥。

圖1

3.2第一頁(yè)——輸入?yún)?shù)

在上一步中單擊“OK”按鈕時(shí)劝篷,將顯示一個(gè)以“New Project Wizard: Input an empirical dataset”為首的新窗口。在新窗口中民宿,提供了10頁(yè)來(lái)輸入數(shù)據(jù)娇妓。這些頁(yè)面中的輸入是連續(xù)的,因此只有在完成并選中所有以前的頁(yè)面后活鹰,才能訪問(wèn)下一頁(yè)哈恰。同樣,如果返回到上一頁(yè)并在那里進(jìn)行任何更改志群,則下一頁(yè)可能會(huì)丟失已輸入的數(shù)據(jù)着绷,或不選中。這是因?yàn)樯弦豁?yè)中的數(shù)據(jù)輸入可能會(huì)影響下一頁(yè)中的數(shù)據(jù)輸入(有效性)锌云。如果某個(gè)頁(yè)面中的數(shù)據(jù)或數(shù)據(jù)格式有任何問(wèn)題荠医,您可以(1)退出“新建項(xiàng)目向?qū)А保褂肅olony的內(nèi)置文本文件編輯器(在File\rightarrowOpen File中)更改數(shù)據(jù),然后重新運(yùn)行Colony彬向;或者更方便地(2)使用外部編輯器(如記事本)更改和保存數(shù)據(jù)兼贡,然后繼續(xù)設(shè)置項(xiàng)目。
“新建項(xiàng)目向?qū)А苯邮彰恳豁?yè)中給定的信息娃胆,將具有特定文件名的數(shù)據(jù)保存在項(xiàng)目文件夾中(必要時(shí)添加列標(biāo)題)遍希,并將所有數(shù)據(jù)和參數(shù)組合到一個(gè)名為“Colony2.dat”的(默認(rèn))輸入文件中,該文件在數(shù)據(jù)輸入過(guò)程完成后保存在項(xiàng)目文件夾中缕棵。
在第1頁(yè)(參見(jiàn)圖2)中孵班,需要設(shè)置許多參數(shù)。在大多數(shù)情況下招驴,參數(shù)的默認(rèn)值都很好篙程。
(1)Mating system-I交配系統(tǒng)-I:請(qǐng)指定雄性和雌性交配系統(tǒng)。在這個(gè)特定的背景下别厘,男性的“一夫一妻制”意味著在OFS樣本中的兩個(gè)有不同母親后代的必須由兩個(gè)不同的男性生育虱饿。換句話說(shuō),男性“一夫一妻制”規(guī)定在OFS樣本中不存在父系半同胞触趴。請(qǐng)注意氮发,本文中的交配系統(tǒng)是針對(duì)所分析的樣本而定義的,而不是針對(duì)采集樣本的種群或物種冗懦。例如爽冕,考慮一個(gè)種群,其中雄性在繁殖季節(jié)與雌性單獨(dú)交配披蕉,但在不同繁殖季節(jié)與不同雌性交配颈畸。來(lái)自多個(gè)繁殖季節(jié)個(gè)體的OFS樣本可能包含來(lái)自不同母親但來(lái)自單一男性(即父系半同胞)的后代。因此没讲,為了進(jìn)行群體分析眯娱,雄性交配系統(tǒng)仍應(yīng)設(shè)置為“一夫多妻制”。雌性交配系統(tǒng)也有類似的定義爬凑。還要注意的是徙缴,當(dāng)男性和女性都被定義為一夫多妻制時(shí),標(biāo)記物很少并且有基因分型錯(cuò)誤嘁信,并且沒(méi)有使用之前的親子關(guān)系時(shí)于样,F(xiàn)L方法的計(jì)算會(huì)變得非常緩慢,因?yàn)閛fs中的所有子代(相關(guān)或不相關(guān))都可以被推斷為在系譜中相關(guān)(例如潘靖,見(jiàn)圖2a)百宇,并且必須是在計(jì)算配置的可能性時(shí)一起考慮。

圖2

(2)Mating system-II交配系統(tǒng)二:也可以定義是否有近親繁殖秘豹。當(dāng)不存在近交時(shí),假設(shè)種群處于哈代-溫伯格平衡狀態(tài)昌粤,用HW定律計(jì)算基因型頻率既绕。在這種情況下啄刹,不推斷近親繁殖,所有后代都假定來(lái)自雌雄同株的異交凄贩。當(dāng)存在近交時(shí)誓军,種群水平(平均)近交系數(shù),相當(dāng)于賴特的FIS疲扎,用其他參數(shù)(如關(guān)系昵时、等位基因頻率)迭代地推斷,并用于計(jì)算基因型頻率椒丧。在這種情況下壹甥,可以推斷出近親繁殖,并且假設(shè)后代來(lái)自于雌雄同株的近親繁殖和自交壶熏。注意句柠,對(duì)于雌雄異株,建議采用非近交模式棒假,除非有強(qiáng)有力的近交證據(jù)溯职,且近交水平較高。否則帽哑,對(duì)低或無(wú)近交的數(shù)據(jù)使用近交模型可以大大降低計(jì)算速度谜酒,而對(duì)關(guān)系的估計(jì)幾乎沒(méi)有或根本沒(méi)有改善。
還可以選擇是否推斷克缕拚怼(重復(fù))僻族。對(duì)于“無(wú)克隆”的選擇,假設(shè)所有后代的多基因座基因型都來(lái)自非克隆配偶的獨(dú)特個(gè)體佳头。換句話說(shuō)鹰贵,默認(rèn)情況下,所有后代的多基因座基因型都是不同的康嘉。任何相同的多基因型都必須是偶然的碉输,因?yàn)闃?biāo)記信息有限,或者是由于輸入錯(cuò)誤亭珍,或者兩者都有敷钾。使用此選項(xiàng),不會(huì)推斷克乱蘩妗(重復(fù))阻荒。
對(duì)于“有克隆”的選擇,假設(shè)一些后代可能具有相同或相似的多基因型众羡,因?yàn)樗鼈兪侵貜?fù)的或來(lái)自相同的克隆侨赡,盡管由于錯(cuò)誤的類型,它們可能具有不同的多焦點(diǎn)表型。有了這個(gè)選擇羊壹,就可以首先推斷出同胞身份蓖宦。然后給出一個(gè)推斷的全同胞,通過(guò)最大化克隆配置的可能性油猫,將這個(gè)完整同胞家族中的個(gè)體劃分為克隆集群稠茂。這兩個(gè)步驟的過(guò)程非常有效,正如模擬(Wang 2016)所驗(yàn)證的那樣情妖,當(dāng)克隆的大胁枪亍(即個(gè)體數(shù)量)很小時(shí),對(duì)于sibship和clone推理都非常有效毡证。然而电爹,當(dāng)克隆體的大小較大時(shí)(例如,一個(gè)克隆體中有10個(gè)以上的個(gè)體)情竹,孟德?tīng)柗蛛x被扭曲藐不,從而導(dǎo)致全同胞家庭的分裂。如果只關(guān)心克隆的推論秦效,那就不是問(wèn)題雏蛮。否則,有兩種方法可以克服這個(gè)問(wèn)題阱州。第一種方法是使用完全似然法運(yùn)行原始數(shù)據(jù)集挑秉,允許重復(fù)。如果檢測(cè)到較大的克隆苔货,那么完整的同胞關(guān)系可能會(huì)被分割犀概。可以刪除除推斷克隆之外的所有成員夜惭,并使用相同的方法重新運(yùn)行縮減的數(shù)據(jù)集姻灶。如果未檢測(cè)到大型克隆,則無(wú)需重新運(yùn)行數(shù)據(jù)诈茧。第二種方法是使用似然評(píng)分法产喉,因?yàn)樗紤]了成對(duì)的個(gè)體,所以能夠抵抗孟德?tīng)柗蛛x的扭曲敢会。
(3)Species物種:Colony適用于雌雄異株和雌雄同株物種的同胞和親代分配曾沈。在這兩種情況下,有或沒(méi)有候選親本(CMS鸥昏,CFS)都可以塞俱。對(duì)于雌雄同株,如果存在吏垮,CMS和CFS必須相同障涯。對(duì)于雌雄異株罐旗,物種可以是二倍體或單倍體。在二倍體的情況下(雌雄異株或雌雄同株)唯蝶,所有個(gè)體都被假定為二倍體尤莺。在單倍體的情況下,男性和女性分別被假定為單倍體和二倍體(對(duì)于具有二倍體男性和單倍體女性的物種生棍,只需交換兩種性別),OFS的后代可以是二倍體媳谁、單倍體或兩者的混合體涂滴。對(duì)于雌雄同株,物種總是被假定為二倍體晴音。對(duì)于多倍體物種柔纵,在進(jìn)行群體分析之前,可以將共顯性標(biāo)記基因型數(shù)據(jù)轉(zhuǎn)換為多倍體二倍體顯性標(biāo)記數(shù)據(jù)锤躁,如Wang&Scribner(2014)所述搁料。
(4)Length of run運(yùn)行長(zhǎng)度:長(zhǎng)時(shí)間運(yùn)行在模擬退火算法中考慮更多的配置,以尋找具有最大似然的最佳分配系羞,從而更容易找到最大似然配置郭计,但這樣做需要更多的時(shí)間。提供了四種運(yùn)行長(zhǎng)度選項(xiàng)椒振,即短/中/長(zhǎng)/彎曲昭伸,將運(yùn)行時(shí)間增加約10倍(例如,長(zhǎng)運(yùn)行時(shí)間約為短運(yùn)行時(shí)間的100倍)澎迎。在大多數(shù)情況下庐杨,中等運(yùn)行是運(yùn)行時(shí)間和精度之間的一個(gè)很好的折衷。更多詳情請(qǐng)參見(jiàn)常見(jiàn)問(wèn)題14.1和14.5夹供。
(5)Analysis method分析方法:四種方法(完全似然灵份,F(xiàn)L;成對(duì)似然得分哮洽,PLS填渠;FL和PLS組合,F(xiàn)PL袁铐;純成對(duì)似然揭蜒,PPL)在colony2實(shí)施。通過(guò)模擬和經(jīng)驗(yàn)數(shù)據(jù)分析剔桨,FL方法是最準(zhǔn)確的方法(Wang 2012)屉更。PLS方法使用與FL相同的模擬退火過(guò)程來(lái)尋找最佳配置。然而洒缀,它計(jì)算并使用成對(duì)的日志相似性之和而不是完整的日志可能性作為評(píng)估配置合理性的標(biāo)準(zhǔn)瑰谜。fpls與fl類似欺冀,只是配置首先由pls篩選以加快計(jì)算速度。當(dāng)一個(gè)新的配置被構(gòu)造時(shí)萨脑,它的PLS被計(jì)算并與舊配置的PLS進(jìn)行比較隐轩。如果根據(jù)大都會(huì)黑斯廷斯算法,由于PLS的變化而放棄了新的配置渤早,則無(wú)需計(jì)算新配置的FL职车。FPL工作良好,在精度上與FL相似鹊杖,但比FL快悴灵,因?yàn)镾ibship大小不太大,標(biāo)記信息充足骂蓖。否則积瞒,它的準(zhǔn)確度略低于FL,但仍然比PLS更準(zhǔn)確登下。正如Wang&Santure(2009)所述茫孔,PPL方法計(jì)算了不同候選人關(guān)系下一對(duì)個(gè)人獨(dú)立于其他個(gè)人的可能性。
一般來(lái)說(shuō)被芳,F(xiàn)L是最準(zhǔn)確的缰贝,其次是FPL和PLS,而PPL是最不準(zhǔn)確的筐钟。然而揩瞪,ppl是計(jì)算速度最快的方法,而fl是最慢的方法篓冲。對(duì)于包含許多標(biāo)記(例如李破,數(shù)百個(gè))和許多個(gè)人(例如,數(shù)千個(gè))的大中型數(shù)據(jù)集壹将,一個(gè)好的折衷辦法是使用PLS方法嗤攻。在colony2中,經(jīng)常使用ppl進(jìn)行分析并給出分析結(jié)果诽俯。但是妇菱,要求用戶在FL、PLS和FPL之間進(jìn)行選擇暴区。默認(rèn)方法是fl闯团。
(6)Likelihood precision似然精度:只有當(dāng)選擇FL或FPLS作為分析方法,并且男性和女性都被指定為多配偶時(shí)仙粱,該選項(xiàng)才有效房交。如前所述,當(dāng)存在基因分型錯(cuò)誤和兩性都是一夫多妻制時(shí)伐割,對(duì)于涉及許多后代的大型數(shù)據(jù)集候味,fl或(較小程度上)fpls方法可能非常慢刃唤。降低似然計(jì)算的精度可以減少運(yùn)行時(shí)間,對(duì)分配精度有輕微的負(fù)面影響白群。
(7)Update allele frequency更新等位基因頻率:計(jì)算配置的可能性時(shí)需要等位基因頻率尚胞。這些頻率可以由用戶提供(見(jiàn)下文),也可以使用OFS帜慢、CMS(可選)和CFS(可選)中的基因型通過(guò)菌落計(jì)算笼裳。在后一種情況下,你可以要求Colony更新等位基因頻率估計(jì)粱玲,在尋找最大似然配置的過(guò)程中考慮推斷的親子關(guān)系侍咱。然而,更新等位基因頻率可以大幅度增加計(jì)算時(shí)間密幔,如果樣本的遺傳結(jié)構(gòu)不強(qiáng)(即家族規(guī)模小且分布均勻,大多數(shù)候選者沒(méi)有被指定為親子)撩轰,則可能無(wú)法改善關(guān)系推斷胯甩。我建議不要更新等位基因頻率,除非懷疑家族規(guī)模(未知)較大(相對(duì)于樣本規(guī)模)且高度可變堪嫂。
(8)Sibship size scaling同胞規(guī)模比例:如果標(biāo)記信息不夠高偎箫,當(dāng)一個(gè)完整同胞變大,包含數(shù)百個(gè)同胞時(shí)皆串,可能會(huì)通過(guò)全似然法錯(cuò)誤地重建為2個(gè)或更多的完整同胞(Wang 2013)淹办。為了避免這種錯(cuò)誤,根據(jù)等位基因的數(shù)量和一個(gè)位點(diǎn)的基因分型錯(cuò)誤率以及實(shí)際的全同胞規(guī)模恶复,縮小全同胞規(guī)模(Wang 2013)怜森。通過(guò)對(duì)大量模擬數(shù)據(jù)集和大量經(jīng)驗(yàn)數(shù)據(jù)集的分析,驗(yàn)證了該縮放方案能夠在不導(dǎo)致小同胞融合的情況下谤牡,高效地減少大同胞分裂(即該方案保持了低的假完全同胞率和假不完全同胞率)副硅。因此,sibship scaling的默認(rèn)選項(xiàng)是yes翅萤。
然而恐疲,非常偶然的是,縮放方案會(huì)導(dǎo)致小的全同胞過(guò)度合并套么,從而產(chǎn)生錯(cuò)誤的大的全同胞培己。這種假大的全同胞的特點(diǎn)是,基因座的比例非常高胚泌,顯示出與全同胞不相容的基因型省咨,例如在二倍體物種的共顯性基因座上顯示4個(gè)以上的等位基因和2種以上的純合子。據(jù)我所知诸迟,這個(gè)問(wèn)題只有一個(gè)報(bào)告茸炒。在這種情況下愕乎,可以重新設(shè)置項(xiàng)目,采用sibship scaling壁公、no的替代選項(xiàng)感论,并重新運(yùn)行數(shù)據(jù)集。
在您知道最大完整同胞規(guī)模很小的情況下(例如紊册,<20)比肄,那么就需要使用備選方案no進(jìn)行單次運(yùn)行。在您不知道可能的完整sibship大小范圍或懷疑某些完整sibship可能很大的情況下囊陡,我的建議是使用默認(rèn)選項(xiàng)yes來(lái)運(yùn)行數(shù)據(jù)集芳绩。如果結(jié)果表明,由于重建的完全同胞太大或包含太多不相容基因型撞反,小同胞過(guò)度融合妥色,則需要使用替代同胞比例選項(xiàng)no進(jìn)行第二次試驗(yàn)。否則(我假設(shè)這是正常的)遏片,就不需要第二次運(yùn)行了嘹害。
(9)Number of runs運(yùn)行次數(shù)。對(duì)于同一個(gè)項(xiàng)目的數(shù)據(jù)集和參數(shù)吮便,可以進(jìn)行多次運(yùn)行笔呀,以便更容易找到具有最大可能性的最佳配置,并且更可靠地評(píng)估估計(jì)的不確定性(見(jiàn)下文)髓需。但是许师,多次運(yùn)行非常耗時(shí)。此外僚匆,在典型情況下微渠,單次運(yùn)行足以進(jìn)行點(diǎn)估計(jì)。
(10)Random number seed隨機(jī)數(shù)種子咧擂。Colony使用模擬退火算法搜索ML配置敛助。這是一種類似于MCMC的蒙特卡羅方法,通過(guò)退火“溫度”可以很好地控制再配置的接受率屋确。從初始配置開(kāi)始纳击,在初始配置中,除了那些具有已知關(guān)系的個(gè)人之外攻臀,所有個(gè)人都被設(shè)置為不相關(guān)焕数,對(duì)配置的一部分進(jìn)行隨機(jī)更改以生成新配置。然后計(jì)算新配置和舊配置的相似性并進(jìn)行比較刨啸,以確定新配置是被接受還是被拒絕堡赔。如果新的可能性大于舊的可能性,則接受新的配置设联。否則善已,使用當(dāng)前溫度灼捂、新的和舊的似然值計(jì)算驗(yàn)收率,并將其與從[0,1]范圍內(nèi)均勻分布中提取的隨機(jī)數(shù)進(jìn)行比較换团。如果隨機(jī)數(shù)值小于接受率悉稠,盡管新配置比舊配置差,但仍然可以接受艘包。這是為了避免算法陷入局部極大似然曲面的猛。因此,隨機(jī)數(shù)種子部分地決定了搜索路徑想虎。對(duì)于完全相同的數(shù)據(jù)和參數(shù)值卦尊,使用不同隨機(jī)數(shù)種子的不同運(yùn)行可能會(huì)給出稍微不同的最終最佳配置和似然值。當(dāng)標(biāo)記數(shù)據(jù)中沒(méi)有足夠的信息來(lái)解決遺傳結(jié)構(gòu)舌厨、樣本的實(shí)際遺傳結(jié)構(gòu)非常弱或樣本量非常大(即數(shù)千個(gè)個(gè)體)時(shí)岂却,偶爾會(huì)發(fā)生這種情況。例如裙椭,當(dāng)標(biāo)記的數(shù)量很小淌友,和/或標(biāo)記不具有信息性(很少有頻率分布不均勻的等位基因),和/或大多數(shù)家族都非常泻С隆(例如,每個(gè)同胞有一個(gè)后代)瑰抵,很難讓復(fù)制運(yùn)行(使用不同的隨機(jī)數(shù)種子)收斂到相同的最佳配置你雌。可以使用不同的隨機(jī)數(shù)種子對(duì)同一個(gè)數(shù)據(jù)集進(jìn)行多次運(yùn)行二汛,以檢查/確認(rèn)分析結(jié)果的可靠性婿崭。在復(fù)制運(yùn)行產(chǎn)生不同結(jié)果的情況下,好消息是可靠推斷的關(guān)系通常在運(yùn)行之間一致地重建肴颊,而可疑的關(guān)系在運(yùn)行之間不一致地推斷氓栈。我們只需要關(guān)注那些可靠的、一致的關(guān)系婿着,而忽略(放棄)下游分析中那些不可靠的授瘦、不一致的關(guān)系。
(11)Sibship size prior先驗(yàn)同胞個(gè)數(shù)竟宋√嵬辏可以選擇使用或不使用先驗(yàn)分布來(lái)對(duì)后代的父子關(guān)系和母子關(guān)系進(jìn)行分配。
在兩性均為多配的情況下丘侠,如果要推斷父系和母系的半同胞關(guān)系徒欣,一些不相關(guān)的或松散相關(guān)的個(gè)體(如表親)可能被推斷為半同胞或全同胞,因?yàn)槿绻麡?biāo)記不具有高度的信息性蜗字,它們具有相似的基因型打肝。事實(shí)上脂新,松散相關(guān)的(例如表親)或甚至不相關(guān)的個(gè)體可能具有相同的基因型,隨著標(biāo)記信息數(shù)量的減少(標(biāo)記更少粗梭、多態(tài)性更少争便、錯(cuò)誤分型率更高),基因型的概率也會(huì)增加楼吃。樣本量越大始花,數(shù)據(jù)集擁有的標(biāo)記信息越少,問(wèn)題就越嚴(yán)重孩锡。有時(shí)酷宵,OFS中的所有后代被推斷為直接(通過(guò)共享同一親本或親本對(duì))或間接地在一個(gè)兩代系譜中相連。這個(gè)問(wèn)題不僅降低了推理精度躬窜,而且大大增加了計(jì)算時(shí)間羹幸。圖2A描繪了一個(gè)典型的錯(cuò)誤推斷的大系譜的形狀肥隆,其中樣本中的所有后代都可以舒適地坐著。
另一方面,關(guān)于父子關(guān)系和母子關(guān)系的平均大小的任何信息都可以在“先驗(yàn)”中使用勘天,以幫助進(jìn)行同胞關(guān)系和親子關(guān)系分配。
基于以上兩個(gè)考慮型檀,我將Ewen的抽樣公式作為父系和母系同胞規(guī)模分布的先驗(yàn)公式憎妙。模擬結(jié)果表明,先驗(yàn)算法能有效地抑制松散和不必要的復(fù)雜譜系口锭,減少偽同胞和計(jì)算時(shí)間朦前,提高推斷精度。
假設(shè)親子關(guān)系大小分布為\mathbf{m}=\left\{m_{1}, m_{2}, \ldots, m_{n}\right\}鹃操,其中m_{i}(i=1, \dots, n)是親子關(guān)系的數(shù)量韭寸,每個(gè)親子關(guān)系恰好由i個(gè)后代組成。后代總數(shù)為n=\sum_{i=1}^{n} i m_{i}荆隘,非空父系親子關(guān)系的平均數(shù)(=貢獻(xiàn)父親的數(shù)目)是k=\sum_{i=0}^{n-1} \frac{\alpha}{i+\alpha}恩伺,其中\alpha是一個(gè)濃度參數(shù),用于確定個(gè)體分配給同一個(gè)父親的程度椰拒。我們可以用n/np代替k晶渠,用數(shù)值方法求解\alpha,其中np是樣本中每個(gè)父親的平均子代數(shù)燃观。給定\alpha乱陡,\mathbf{m}=\left\{m_{1}, m_{2}, \ldots, m_{n}\right\},mn的先驗(yàn)概率是\operatorname{Prb}(\mathbf{m})=\frac{n !}{\prod_{i=0}^{n-1}(\alpha+i)} \prod_{i=1}^{n}\left(\frac{\alpha}{i}\right)^{m_{i}} \frac{1}{m_{i} !}仪壮。母系同胞規(guī)模的先驗(yàn)分布也有類似的定義憨颠。
先驗(yàn)強(qiáng)度通過(guò)在計(jì)算中使用(\operatorname{Prb}(\mathbf{m}))^{x}來(lái)調(diào)節(jié),其中x取0(無(wú)先驗(yàn))、0.25(弱先驗(yàn))爽彤、0.5(中先驗(yàn))和1.0(強(qiáng)先驗(yàn))的值养盗。若要使用先驗(yàn),需要提供(估計(jì)的)平均父系(np)和母系(nm)親子關(guān)系大小以及x的值适篙。當(dāng)您不知道平均親子關(guān)系大小時(shí)往核,請(qǐng)使用x=0(無(wú)先驗(yàn)),并且您不會(huì)被問(wèn)到np和nm值嚷节。否則聂儒,當(dāng)您對(duì)所提供的np和nm值的信心分別為低、中和高時(shí)硫痰,使用x=0.25衩婚、0.5和1.0。父系的默認(rèn)設(shè)置為np=1效斑,母系同胞的默認(rèn)設(shè)置為nm=1非春,x=0.25。此默認(rèn)設(shè)置旨在減少錯(cuò)誤的sibship分配缓屠,并減少計(jì)算時(shí)間奇昙。
先驗(yàn)的第5個(gè)選項(xiàng)“已知的Ne”也適用于以下情況:(1)從已知有效大小的人群中隨機(jī)抽取個(gè)體樣本,Ne和大致已知的性別比敌完,r和(2)隨機(jī)抽取個(gè)體樣本储耐,從同胞頻率中估計(jì)樣本人群的Ne(Wang 2016)。在第(2)種情況下滨溉,先前的Ne和r可能是由等位基因頻率的不平衡或時(shí)間變化所假定的值或估計(jì)值什湘。在這兩種情況下,在給定的先驗(yàn)Ne和R值的情況下业踏,Colony在進(jìn)行關(guān)系推理和Ne估計(jì)時(shí)都會(huì)計(jì)算并使用一個(gè)最優(yōu)的先驗(yàn)關(guān)系。
請(qǐng)注意涧卵,先驗(yàn)的設(shè)置與其他參數(shù)相關(guān)勤家。因此,對(duì)先驗(yàn)參數(shù)和其他參數(shù)有直觀的相互約束柳恐。(1)當(dāng)兩性都是一夫一妻制時(shí)伐脖,我們有np=nm。(二)一種性別為多配乐设,另一種性別為一夫一妻制的讼庇,多夫一妻制的平均同胞數(shù)不得小于一夫一妻制的平均同胞數(shù)。(3)NP和NM不得大于后代樣本量近尚。
為了盡量減少圖2a所示的假大譜系蠕啄,NP和NM最好分別作為每個(gè)父親和母本的子代的調(diào)和平均數(shù)。如果大多數(shù)親子關(guān)系較小,只有少數(shù)親子關(guān)系較大歼跟,那么np應(yīng)該較小和媳,接近最小值,而不是算術(shù)平均親子關(guān)系大小哈街。
(12)Note to the project項(xiàng)目說(shuō)明留瞳。可以在文本框中放置任何內(nèi)容骚秦,例如設(shè)置項(xiàng)目時(shí)她倘、數(shù)據(jù)集的注釋等。GUI將在注釋中附加一些基本信息作箍,例如創(chuàng)建新項(xiàng)目的日期和時(shí)間硬梁。

3.3第二頁(yè)——標(biāo)記

第2頁(yè)中(見(jiàn)圖3),應(yīng)提供有關(guān)標(biāo)記的信息蒙揣。

圖3

(1)Number of loci genotyped分型的位點(diǎn)數(shù)靶溜。為樣本中的個(gè)體提供標(biāo)記基因型的最大數(shù)量。注意懒震,標(biāo)記位置有一個(gè)隱式的順序罩息,在整個(gè)輸入中應(yīng)該一致地遵循這個(gè)順序。例如个扰,在后代瓷炮、候選雄性和雌性基因型數(shù)據(jù)、等位基因頻率數(shù)據(jù)以及標(biāo)記類型和基因分型錯(cuò)誤數(shù)據(jù)中递宅,必須遵循相同的標(biāo)記位點(diǎn)順序娘香。例如,在所有這些文件中办龄,“第一位點(diǎn)”或“位點(diǎn)1”必須指同一標(biāo)記烘绽。
(2)Marker type and error rate標(biāo)記類型和錯(cuò)誤率。單擊“Marker type and error rate”下的“Load”按鈕加載文件俐填。在該文件中安接,應(yīng)為每個(gè)標(biāo)記(在列中)提供4個(gè)值。第一個(gè)值(第1行)指定標(biāo)記名或ID(最多包含20個(gè)字母/數(shù)字英融,其他值(如空格盏檐、逗號(hào)、句號(hào)驶悟、向前和向后斜杠)在名稱/ID中不允許出現(xiàn)胡野。第二個(gè)(在第2行)表示標(biāo)記類型,無(wú)論是共顯性(0)還是顯性(1)痕鳍。第三和第四個(gè)值(分別在第3行和第4行)給出標(biāo)記的等位基因退出率和其他類型基因分型錯(cuò)誤(包括突變)的發(fā)生率硫豆。有關(guān)基因分型錯(cuò)誤模型的更多信息,請(qǐng)參閱Wang(2004)。
請(qǐng)注意够庙,該文件設(shè)置了在所有以下輸入中必須遵循的標(biāo)記位置的順序恭应。第一列為位點(diǎn)1,第二列為位點(diǎn)2耘眨,…
注意昼榛,當(dāng)標(biāo)記出現(xiàn)基因分型錯(cuò)誤時(shí),F(xiàn)L方法的計(jì)算變得緩慢剔难。當(dāng)父母本都被指定為多配時(shí)胆屿,這一點(diǎn)尤其明顯。錯(cuò)誤率越高偶宫,程序運(yùn)行速度越慢非迹。
下面顯示了一個(gè)帶有5個(gè)位點(diǎn)的“arker type and error rate”的示例文件,當(dāng)加載到Colony中時(shí)纯趋,它看起來(lái)像圖3(下窗格)憎兽。注:圖3中的列名(即“Locus-1”)不應(yīng)包含在文件中。在加載文件時(shí)吵冒,Colony會(huì)自動(dòng)添加列標(biāo)題纯命。對(duì)于以下所有加載到colony的文件都是這樣的。

mk1 mk2 mk3 mk4 mk5 
0 0 0 0 0
0.0000 0.0000 0.0000 0.0000 0.0000 
0.0001 0.0001 0.0001 0.0001 0.0001

當(dāng)所有的位置都具有相同的通用標(biāo)記名/id(第1行)或當(dāng)所有的位置具有相同的值(2-4行)時(shí)痹栖,可以極大地簡(jiǎn)化輸入亿汞。在這種情況下,每行只需要一個(gè)輸入項(xiàng)揪阿。例如疗我,上面的示例輸入被簡(jiǎn)化為每行一項(xiàng):

mk@ 
0@ 
0.0000@ 
0.0001@

符號(hào)@表示相同的值應(yīng)用于所有位置(第2-4行),或相同的通用名稱應(yīng)用于所有標(biāo)記(第1行)南捂,Colony將向其通用名稱添加標(biāo)記的順序吴裤。對(duì)于不同的行,可以混合完整和簡(jiǎn)單的輸入【上面這2中輸入方法可以混用】溺健。例如麦牺,第2行和第3行可以是

0 0 0 1 0 
0.0000@

(3)Allele frequency等位基因頻率。如果群體等位基因頻率未知矿瘦,并且將根據(jù)當(dāng)前數(shù)據(jù)集(在該數(shù)據(jù)集內(nèi)推斷關(guān)系)進(jìn)行估計(jì)枕面,則單擊“unknown”單選按鈕愿卒,Colony將從當(dāng)前樣本中估計(jì)等位基因頻率缚去。如果已知種群等位基因頻率或已從另一個(gè)更大、更合適的樣本中估算出種群等位基因頻率琼开,請(qǐng)單擊“known”單選按鈕易结,然后單擊“l(fā)oad”按鈕加載等位基因頻率文件。在加載之前,應(yīng)按以下格式準(zhǔn)備文件搞动。
每個(gè)位點(diǎn)連續(xù)兩行躏精。第一行列出等位基因的名稱/標(biāo)識(shí)(使用唯一整數(shù)1~99999999),第二行列出等位基因的對(duì)應(yīng)頻率鹦肿。同一行的等位基因(或等位基因頻率)應(yīng)該用逗號(hào)或空格隔開(kāi)矗烛。前兩行用于位點(diǎn)1,第三行和第四行用于位點(diǎn)2箩溃,…瞭吃。在一個(gè)基因座內(nèi),等位基因的名稱/識(shí)別必須是唯一的涣旨,但不一定是有序的或連續(xù)的歪架。不同基因座的等位基因可以有相同的識(shí)別號(hào)。在后代和候選父母的基因型數(shù)據(jù)中霹陡,必須使用相同的等位基因名稱/基因座標(biāo)識(shí)和蚪。
注意,當(dāng)?shù)任换蝾l率被指定為已知時(shí)烹棉,加載的等位基因頻率文件應(yīng)包含在后代和候選基因型中發(fā)現(xiàn)的所有等位基因攒霹。否則,運(yùn)行Colony時(shí)出錯(cuò)峦耘。另外剔蹋,對(duì)于一個(gè)顯性基因座,只允許有兩個(gè)等位基因辅髓,并且它們總是被索引為1表示顯性等位基因(帶的存在)泣崩,2表示隱性等位基因(純合子時(shí)沒(méi)有帶)。當(dāng)群體等位基因頻率被錯(cuò)誤指定時(shí)洛口,親子關(guān)系和親子關(guān)系可能被高估矫付,所有的后代都可能被推斷有相同(或極少數(shù))的親本(見(jiàn)常見(jiàn)問(wèn)題解答)。
在輸入所有必需的信息后第焰,您需要單擊“Check Data”按鈕來(lái)檢查當(dāng)前頁(yè)面中輸入的有效性以及與以前頁(yè)面的兼容性买优。只有單擊此按鈕并通過(guò)檢查后,才允許轉(zhuǎn)到下一頁(yè)進(jìn)行輸入挺举。以下頁(yè)面中的復(fù)選按鈕的功能類似杀赢。

3.4后代基因型

第3頁(yè)要求提供關(guān)于后代基因型的信息。
(1)Number of offspring后代數(shù)量湘纵。在文本框中提供OFS樣本中包含基因型的后代數(shù)量脂崔。最小值為1。
(2)Offspring genotypes后代基因型梧喷。單擊“Load Genotype”按鈕砌左,將子代基因型文件加載到項(xiàng)目中脖咐。該文件應(yīng)包含每個(gè)位點(diǎn)的個(gè)體ID和基因型(圖4)。每個(gè)個(gè)體只需一行汇歹。第一列給出了個(gè)體的ID(最多包含20個(gè)字母和/或數(shù)字的字符串屁擅,不允許使用其他字符),第二列和第三列給出了在第一個(gè)位點(diǎn)觀察到的個(gè)體等位基因产弹,第四列和第五列給出了在第二個(gè)位點(diǎn)觀察到的個(gè)體等位基因派歌。等位基因由一個(gè)1~99999999的整數(shù)來(lái)識(shí)別。如果基因座是顯性標(biāo)記痰哨,那么該標(biāo)記只需要一個(gè)(而不是2)列硝皂,基因型的值應(yīng)該是1(顯性表型,帶的存在)或2(隱性表型作谭,帶的缺失)稽物。缺失的基因型用0表示共顯性標(biāo)記,用0表示顯性標(biāo)記折欠。注意子代ID應(yīng)該是唯一的贝或。它們區(qū)分大小寫,這意味著锐秦,例如咪奖,“offspring2”和“Offspring2”被視為不同的。所有基因座缺失的后代(完全沒(méi)有標(biāo)記信息)不應(yīng)包含在后代基因型文件中酱床。****還建議排除標(biāo)記信息很少的個(gè)體(即基因型不缺失的少數(shù)基因座)羊赵。
單倍體后代的信息與上面詳述的二倍體后代的信息相同,只是每個(gè)基因座的第二等位基因應(yīng)該是一個(gè)固定的數(shù)字-99扇谣。該程序讀取后代的基因型數(shù)據(jù)昧捷,并通過(guò)檢查每個(gè)位點(diǎn)的第二等位基因來(lái)確定后代的倍性。如果第二個(gè)等位基因在每個(gè)具有基因型數(shù)據(jù)的共顯性基因座上為-99(即第一個(gè)等位基因?yàn)檎龜?shù))罐寨,則后代被視為單倍體靡挥。如果第二個(gè)等位基因在每個(gè)有基因型數(shù)據(jù)的共顯性基因座上是一個(gè)正數(shù),那么后代被認(rèn)為是二倍體鸯绿。如果某些共顯性基因座的第二等位基因?yàn)?99跋破,而另一個(gè)具有基因型數(shù)據(jù)的共顯性基因座的第二等位基因?yàn)檎龜?shù),則無(wú)法確定后代的倍性瓶蝴,程序?qū)⒁藻e(cuò)誤消息停止毒返。
示例子代基因型文件的一部分如下所示,當(dāng)加載到群體中時(shí)舷手,它看起來(lái)像圖4拧簸。注:列名不應(yīng)包括在后代基因型文件中。它們?cè)诩虞d時(shí)由Colony自動(dòng)添加聚霜。

O1 11 11 8 11 11 3 9 2 1 2
O2 11 11 8 3 11 3 9 12 1 1
O3 11 1 8 3 11 4 9 11 1 8
O4 11 9 8 2 11 4 9 11 1 8
O5 12 12 3 1 4 12 2 3 2 16
O6 11 12 3 1 3 4 2 3 2 16
圖4

單倍體后代的數(shù)據(jù)(在5個(gè)共顯性基因座上)可以列為“

Ox 11 -99 3 -99 3 -99 2 -99 2 -99

在所有基因座都是顯性的且物種是單倍體二倍體的特殊情況下狡恬,每個(gè)基因座的后代基因型顯示為一個(gè)單一的數(shù)字。在這種情況下蝎宇,后代的倍性不能如上文所述確定弟劲,必須明確說(shuō)明。子代取一行姥芥,第一列為子代ID(一個(gè)字符串)兔乞,第二列為子代的倍性(單倍體和二倍體分別為1和2),第三列為基因座1的基因型(顯性或隱性為1或2)凉唐,以此類推庸追。

Ox 1 2 2 1 1 1 
Oy 2 1 1 1 1 1

子代Ox和Oy分別為單倍體和二倍體(第2列紅色顯示)。

3.5候選男性基因型

第4頁(yè)讀到有關(guān)候選男性的信息台囱。
(1)Number of candidate males候選男性個(gè)數(shù)淡溯。在文本框中提供CMS樣本中包含的候選男性人數(shù)。注意簿训,已知父親也包括在CMS樣本中咱娶。最小值為0【不預(yù)設(shè)父本】,在這種情況下不推斷父子關(guān)系强品。

圖5

(2)Male genotypes (optional)男性基因型(可選)膘侮。當(dāng)候選男性數(shù)量大于0時(shí),要求用戶加載包含候選男性基因型的文件(圖5)的榛。除下面2中情況外琼了,男性基因型文件的格式與后代基因型文件相同。一種是夫晌,對(duì)于單倍體物種(假設(shè)雄性為單倍體)雕薪,無(wú)論標(biāo)記是共顯性還是顯性,每個(gè)基因座只占一列而不是2列晓淀。另一種情況是蹦哼,如果已經(jīng)包含在后代基因型文件中的個(gè)體存在于候選男性文件中,則不需要提供其基因型要糊,只需提供其個(gè)體ID的第一列即可纲熏。
(3)Probability of an actual father being included in candidates (optional)候選人中包括實(shí)際父親的可能性(可選)。提供OFS中后代的實(shí)際父親包含在CMS樣本中的概率的猜測(cè)(估計(jì))锄俄。

3.6候選女性基因型【與3.5的要求基本一致】

第5頁(yè)顯示了候選女性的類似信息局劲。
(1)Number of candidate females候選女性個(gè)數(shù)。在文本框中提供CFS樣本中包含的候選女性人數(shù)奶赠。最小值為0鱼填,在這種情況下,不推斷母子關(guān)系毅戈。
(2)Female genotypes (optional)女性基因型(可選)苹丸。當(dāng)候選女性數(shù)量大于0時(shí)愤惰,要求用戶加載包含候選女性基因型的文件。女性基因型文件的格式與后代基因型文件的格式相同赘理,但如果已包含在后代基因型文件中的個(gè)體存在于候選女性文件中宦言,則無(wú)需提供其基因型,只需提供其個(gè)體ID的第一列即可商模。
(3)候選人中包括實(shí)際母親的可能性(可選)奠旺。對(duì)OFS樣本中包含子代的實(shí)際母親的概率進(jìn)行猜測(cè)(估計(jì))。

3.7已知父子關(guān)系

在第6頁(yè)中施流,您可以輸入任何已知父子關(guān)系的信息响疚,以幫助推斷未知的關(guān)系。
(1)Number of known paternal sibship/paternity已知父子關(guān)系的數(shù)量瞪醋。在文本框中提供樣本中包含或不包含已知父親的已知父子關(guān)系數(shù)忿晕,最小值為0。已知的父子關(guān)系在OFS樣本中包含1個(gè)或多個(gè)已知共享同一父親的后代银受,無(wú)論父親是否已知并包含在CMS中杏糙。例如,在圖6所示的示例中蚓土,有4個(gè)已知的父子關(guān)系宏侍。第一個(gè)同胞包含兩個(gè)后代,O1和O2蜀漆,他們共享一個(gè)已知的父親M1谅河。第三個(gè)同胞包含2個(gè)后代,O23和O25确丢,其父親未知(即不包括在CMS中)绷耍,因此在父代字段中以“0”表示。
(2)Mismatch threshold (optional)錯(cuò)配閾值(可選)鲜侥。如果已知父子關(guān)系的數(shù)目大于零褂始,將要求給出錯(cuò)配閾值,該閾值應(yīng)為范圍[0描函,位點(diǎn)個(gè)數(shù)]內(nèi)的整數(shù)崎苗。它用于確定一個(gè)已知的父子二分體是否被接受。如果已知父-子二代的一對(duì)多基因型顯示的不匹配(孟德?tīng)柌幌嗳菪裕┐笥陂撝狄ㄔⅲ敲催@種假定的已知父-子關(guān)系將被拒絕胆数。否則,它是可以接受的互墓,并且不會(huì)從基因型數(shù)據(jù)中推斷出來(lái)必尼。
(3)Known paternal sibship/paternity (optional)已知父子關(guān)系(可選)。如果已知父子關(guān)系的數(shù)量大于零篡撵,則要求您加載已知父子關(guān)系的文件判莉。在文件中豆挽,每個(gè)已知的父子關(guān)系/父子關(guān)系都是一行,第一列包含父親ID/姓名(如果男性已知并包含在CMS中)券盅,或者值為0表示父親未知或不包含在CMS中帮哈。在上的第2列中,列出了父子關(guān)系的每個(gè)成員的ID/名稱渗饮。
圖6顯示了一個(gè)示例。再次注意宿刮,列標(biāo)題應(yīng)該從原始文件中排除互站。在本例中,第一行表示子代O1和O2共享CMS中包含的同一父親M1僵缺。第3行表示已知子代O23和O25與未知父親(用0表示)共享胡桃。請(qǐng)注意,兩個(gè)(或更多)具有不同已知父親的父系同胞從未合并為一個(gè)單一的父系同胞磕潮;在構(gòu)建關(guān)系配置時(shí)翠胰,他們總是保持獨(dú)特。同一個(gè)不明父親的后代可以與已知或未知父親的父子關(guān)系合并自脯。還要注意的是之景,一個(gè)已知或未知父親的單親同胞中的后代永遠(yuǎn)不會(huì)分裂成不同的親子同胞。


圖6

3.8已知的母子關(guān)系【同3.7】

在第7頁(yè)中膏潮,可以輸入有關(guān)任何已知母子關(guān)系的類似信息锻狗,以幫助推斷未知的關(guān)系。
(1)Number of known maternal sibship/maternity已知的母系/母系數(shù)量焕参。在文本框中提供樣本中包含的已知母系同胞或母系數(shù)量轻纪。最小值為0。
(2)Mismatch threshold (optional)不匹配閾值(可選)叠纷。與3.7中定義的相同刻帚。
(3)Known maternal sibship/maternity (optional)已知的母系同胞/母系(可選)。如果已知的母子/母子數(shù)量大于零涩嚣,則需要為已知的母子/母子加載一個(gè)文件崇众。在文件中,每個(gè)已知的母系同胞都是一行航厚,第一列包含母親ID/姓名(如果女性已知并包含在CFS中)校摩,或者值為0表示母親未知或不包含在CFS中。在上的第2列中阶淘,列出了sibship的每個(gè)成員的ID/名稱衙吩。

3.9排除親子關(guān)系【類似3.7或3.8】

在某些情況下,我們從年齡或其他信息中知道溪窒,某些候選男性絕對(duì)不可能成為某個(gè)特定后代的父親坤塞。這些信息可以作為輸入冯勉,幫助更準(zhǔn)確地推斷父母的年齡。在第8頁(yè)中摹芙,您可以為每個(gè)后代輸入被排除為父親的候選雄性灼狰。
(1)任何排除親子關(guān)系的后代數(shù)量。在文本框中提供每個(gè)人至少有一個(gè)已知排除的候選男性作為其父親的后代數(shù)量浮禾。最小值為0(圖7)交胚。
(2)排除親子關(guān)系(可選)。如果排除親子關(guān)系的后代數(shù)量大于零盈电,則需要為排除的候選雄性加載一個(gè)文件蝴簇。每一個(gè)排除了親子關(guān)系的后代都有一排。行的第一個(gè)條目是子代ID/名稱匆帚,后面是排除子代父代的候選雄性的ID熬词。

3.10除外生育

與排除親子關(guān)系類似(見(jiàn)上文第3.9條),在第9頁(yè)的分析中吸重,也可以將已知排除親子關(guān)系作為信息輸入互拾。

3.11排除父系同胞

在某些情況下,我們知道一個(gè)后代不可能與樣本中的一個(gè)或多個(gè)其他后代共享同一個(gè)父親嚎幸。這些信息可以作為輸入颜矿,幫助更準(zhǔn)確地推斷親子關(guān)系。在第10頁(yè)中嫉晶,您可以為每個(gè)子代輸入被排除為父系兄弟姐妹的子代或衡。沒(méi)有被排除在外的個(gè)體作為兄弟姐妹的后代不應(yīng)被列出。
(1)有除外父车遂、兄弟姐妹的子女?dāng)?shù)封断。在文本框中提供每個(gè)人至少有一個(gè)已知排除的個(gè)體作為其親子兄弟姐妹的后代數(shù)量。最小值為0(圖8)舶担。
(2)排除親生兄弟姐妹(可選)坡疼。如果有任何排除的父兄弟姐妹的子代數(shù)大于零,則需要為排除的父兄弟姐妹加載一個(gè)文件衣陶。每一個(gè)有一個(gè)或多個(gè)被排除在外的父系兄弟姐妹的后代都有一排柄瑰。行的第一個(gè)條目是子代ID/名稱,后面是排除父代兄弟姐妹的子代的ID剪况。在圖8所示的示例中教沾,O5、O3和O4與O1不共享同一父親译断。但是授翻,它沒(méi)有提到O3、O4和O5之間的關(guān)系。他們可以也可以不共享同一個(gè)父親堪唐。

3.12排除的母系親屬關(guān)系

與排除的親子關(guān)系相似(見(jiàn)上文第3.11條)巡语,已知排除的親子關(guān)系也可作為信息輸入第11頁(yè)的分析中。

4-11【略】

12. 程序輸出

當(dāng)一個(gè)經(jīng)驗(yàn)數(shù)據(jù)分析或模擬運(yùn)行完成后淮菠,分析結(jié)果將被定向到具有相同名稱但不同自解釋擴(kuò)展名的多個(gè)純文本文件男公。對(duì)于經(jīng)驗(yàn)數(shù)據(jù)分析,文件名正好是項(xiàng)目名合陵。對(duì)于模擬枢赔,文件名是帶有后綴“_i”的項(xiàng)目名,其中i(=1~n拥知,n為復(fù)制數(shù))表示第i次復(fù)制踏拜。在下面,通配符*表示文件名举庶,記住模擬數(shù)據(jù)和經(jīng)驗(yàn)數(shù)據(jù)分析之間的差異执隧。
其他模擬數(shù)據(jù)文件(見(jiàn)下文)也可用于模擬運(yùn)行揩抡。這些文件有不同的但不言自明的名稱户侥,后綴為“_i”,擴(kuò)展名為“.txt”峦嗤。
所有這些模擬數(shù)據(jù)文件和分析輸出文件都在項(xiàng)目文件夾中蕊唐,并且可以被任何文本編輯器讀取。它們可以導(dǎo)入到Excel或任何其他測(cè)試編輯器中烁设。最好替梨,它們可以由柯羅尼的圖形用戶界面查看,以表格和圖形的形式顯示結(jié)果装黑。通過(guò)選擇單元格并按“ctrl c”副瀑,可以將這些表復(fù)制到剪貼板。同樣恋谭,可以通過(guò)右鍵單擊圖形將圖形復(fù)制到剪貼板糠睡。

12.1全同胞聯(lián)誼會(huì)

柯羅尼推斷出的完整sib-dyads列在一個(gè)名為“*的文件中。全西比亞德”疚颊”房祝可以通過(guò)單擊Windows中的“查看結(jié)果”“fullsib-dyad”加載結(jié)果。在每一行上材义,列出了完整sib-dyad的ID均抽,然后是這樣一個(gè)dyad的概率。示例如下所示其掂。在Windows版本中油挥,可以通過(guò)單擊相應(yīng)的列標(biāo)題,根據(jù)子代ID或概率對(duì)Dyads進(jìn)行排序。如常見(jiàn)問(wèn)題13.4所述喘漏,計(jì)算完全SIB Dyad的概率护蝶。注意,對(duì)于一對(duì)SIB個(gè)體A和B翩迈,只列出了A持灰、B和B這兩個(gè)可能的無(wú)序二元中的一個(gè)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市负饲,隨后出現(xiàn)的幾起案子堤魁,更是在濱河造成了極大的恐慌,老刑警劉巖返十,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件妥泉,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡洞坑,警方通過(guò)查閱死者的電腦和手機(jī)盲链,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)迟杂,“玉大人刽沾,你說(shuō)我怎么就攤上這事∨趴剑” “怎么了侧漓?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)监氢。 經(jīng)常有香客問(wèn)我布蔗,道長(zhǎng),這世上最難降的妖魔是什么浪腐? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任纵揍,我火速辦了婚禮,結(jié)果婚禮上议街,老公的妹妹穿的比我還像新娘泽谨。我一直安慰自己,他們只是感情好傍睹,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布隔盛。 她就那樣靜靜地躺著,像睡著了一般拾稳。 火紅的嫁衣襯著肌膚如雪吮炕。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,111評(píng)論 1 285
  • 那天访得,我揣著相機(jī)與錄音龙亲,去河邊找鬼陕凹。 笑死,一個(gè)胖子當(dāng)著我的面吹牛鳄炉,可吹牛的內(nèi)容都是我干的杜耙。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼拂盯,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼佑女!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起谈竿,我...
    開(kāi)封第一講書(shū)人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤团驱,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后空凸,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體嚎花,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年呀洲,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了紊选。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡道逗,死狀恐怖兵罢,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情憔辫,我是刑警寧澤趣些,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布仿荆,位于F島的核電站贰您,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏拢操。R本人自食惡果不足惜锦亦,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望令境。 院中可真熱鬧杠园,春花似錦、人聲如沸舔庶。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)惕橙。三九已至瞧甩,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間弥鹦,已是汗流浹背肚逸。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工爷辙, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人朦促。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓膝晾,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親务冕。 傳聞我的和親對(duì)象是個(gè)殘疾皇子血当,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容