一. GWAS與群體結(jié)構(gòu)
(1)群體遺傳結(jié)構(gòu):群體水平大尺度遺傳差異晚吞,亞群水平等位基因頻率差異涵叮,不同祖先來源,個(gè)體間親緣關(guān)系挪捕,家系等不同的群體結(jié)構(gòu)。
?圖1 群體結(jié)構(gòu)類型
(2)群體結(jié)構(gòu)對(duì)GWAS的影響:GWAS的研究對(duì)象包括自然群體争便、種質(zhì)資源级零,半同胞家系,混合家系滞乙,MAGIC/NAM家系等奏纪。自然群體內(nèi)性狀變異和遺傳變異豐富,群體內(nèi)積累許多重組和突變信息斩启,使用GWAS定位的分辨率大大提高序调;使用人工設(shè)計(jì)群體進(jìn)行GWAS一方面降低群體內(nèi)分化情況,另一方面避免稀有等位變異的丟失兔簇。但是发绢,GWAS分析時(shí)也存在困難,每個(gè)亞群樣本共享一種生活方式垄琐,導(dǎo)致許多目標(biāo)性狀直接與亞群或世系相關(guān)边酒;亞群間本身的表型差異;群體內(nèi)等位基因頻率差異大的位點(diǎn)與表型關(guān)聯(lián)狸窘,導(dǎo)致出現(xiàn)假陽性墩朦。所以,GWAS需要選擇統(tǒng)計(jì)學(xué)模型(如GLM翻擒、MLM)校正群體結(jié)構(gòu)介杆,我們?cè)谶x擇材料時(shí),保持群體豐富遺傳變異的同時(shí)韭寸,也要盡量避免過于復(fù)雜的群體結(jié)構(gòu)。
二. 群體結(jié)構(gòu)分析
(1)主成分分析
通過正交交換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量荆隘,PCA分析展示比較能區(qū)分群體的2-3個(gè)主成分恩伺。
(2)系統(tǒng)進(jìn)化樹
表示生物的進(jìn)化歷程和親緣關(guān)系,基于不同算法可以構(gòu)建NJ樹(MEGA)椰拒、ML樹(RAxML)晶渠、貝葉斯樹(ExaBayes)等凰荚。
(3)structure
反映遺傳變異在物種或群體的分布,推斷群體數(shù)目褒脯,判斷某個(gè)體屬于哪個(gè)群體便瑟,基于不同算法的分析軟件有STRUCTURE、ADMIXTURE番川、fastSTRUCTURE到涂、TeraStructue等。
(4)遺傳關(guān)系矩陣
包括血緣颁督,共同祖先及其他共同特征的關(guān)系践啄,可以根據(jù)系譜關(guān)系、標(biāo)記基因型(AA沉御、Aa屿讽、aa)、標(biāo)記歐氏距離(ED值)等方法推斷吠裆,MLM可以作為協(xié)方差控制假陽性伐谈。
?圖2 群體結(jié)構(gòu)分析
三. 經(jīng)典文獻(xiàn)——GWAS解析二倍體棉關(guān)鍵農(nóng)藝性狀的遺傳基礎(chǔ)
(1)實(shí)驗(yàn)材料:
重測(cè)序230份亞洲棉材料(G.arboreum)和13份草棉材料(G.herbaceum),收集來自華南(SC)试疙、長江流域(YZR)和黃河流域(YER)诵棵,代表中國二倍體棉的表型和地理多樣性。
(2)測(cè)序方案:
Illumina HiSeq 2500效斑,PE125非春,每份材料~6.0×,過濾得到72419 SNPs缓屠。
(3)部分結(jié)論:
雷德蒙氏棉(G.?raimondii)作為外類群構(gòu)建NJ樹發(fā)現(xiàn)亞洲棉和草棉分成兩個(gè)獨(dú)立枝奇昙,亞洲棉劃分出SC、YZR敌完、YER等地理分組储耐,PCA分析進(jìn)一步驗(yàn)證,說明亞洲棉和草棉從不同野生祖先獨(dú)立馴化滨溉。SC分組核苷酸多態(tài)性更高(π=0.211×10?3)什湘,說明亞洲棉最初在SC栽培然后傳播到Y(jié)ZR和YER,亞洲棉(r2=0.40)和草棉(r2=0.39)LD值相似于大豆和水稻地方品種晦攒,明顯高于玉米栽培品種闽撤。Model-based 群體結(jié)構(gòu)分析發(fā)現(xiàn)YER顯著區(qū)別于SC、YER脯颜,說明人工選擇在作物馴化中起重要作用哟旗。11個(gè)重要性狀GWAS發(fā)現(xiàn)98個(gè)顯著關(guān)聯(lián)信號(hào),25個(gè)在基因區(qū)域,農(nóng)藝性狀相關(guān)的主效GWAS信號(hào)在形態(tài)上表現(xiàn)地理分化闸餐,如花期饱亮、棉鈴重和抗病性等,所以成熟度舍沙、產(chǎn)量和抗病性狀一直處于強(qiáng)烈的人工/地理選擇近上。
?圖3 二倍體棉基因組與地理差異