在碩士就讀期間,就已經(jīng)做過(guò) GWAS 相關(guān)的分析凿蒜。當(dāng)時(shí)標(biāo)記量非常少, windows 系統(tǒng)分析就足夠了胁黑,作圖方面涉及的腳本也基本是蔡師兄幫寫(xiě)的废封。后來(lái),隨著高通量測(cè)序成本的降低丧蘸,標(biāo)記數(shù)量越來(lái)越多漂洋,不得不進(jìn)入 linux 和 腳本操作的時(shí)代,因此我也陸陸續(xù)續(xù)的學(xué)習(xí)了 R 和 Python等編程語(yǔ)言力喷,但是在編程的世界里刽漂,只是一個(gè)小菜鳥(niǎo),大部分的腳本都是“借來(lái)的”弟孟。
而此次 GWAS方面的相關(guān)內(nèi)容基本取材于百邁客云課堂贝咙。
1、基本概念
全基因組關(guān)聯(lián)分析(Genome wide association study拂募,GWAS)是對(duì)多個(gè)個(gè)體在全基因組范圍的遺傳變異(標(biāo)記)多態(tài)性進(jìn)行檢測(cè)庭猩,獲得基因型,進(jìn)而將基因型與可觀測(cè)的性狀陈症,即表型蔼水,進(jìn)行群體水平的統(tǒng)計(jì)學(xué)分析,根據(jù)統(tǒng)計(jì)量或顯著性 p 值篩選出最有可能影響該性狀的遺傳變異(標(biāo)記)录肯,挖掘與性狀變異相關(guān)的基因趴腋。
相對(duì)于連鎖分析的優(yōu)勢(shì)
? 關(guān)聯(lián)定位的相對(duì)優(yōu)勢(shì):
? 1)分辨率高(單堿基水平)
? 2)研究材料來(lái)源廣泛,可捕獲的變異豐富
? 3)節(jié)省時(shí)間
關(guān)聯(lián)分析的基礎(chǔ)-連鎖不平衡(LD)
當(dāng)位于某一座位的特定等位基因與另一座位的某一等位基因同時(shí)出現(xiàn)的概率大于群體中因隨機(jī)分布的兩個(gè)等位基因同時(shí)出現(xiàn)的概率時(shí)论咏,就稱(chēng)這兩個(gè)座位處于連鎖不平衡狀態(tài)(linkage disequilibrium)
r2 和 D'
? r2和D’反映了LD的不同方面于样。r2包括了重組和突變,而D’只包括重組史潘靖。
D’能更準(zhǔn)確地估測(cè)重組差異穿剖,但樣本較小時(shí),低頻率等位基因組合可能無(wú)法
觀測(cè)到卦溢,導(dǎo)致LD強(qiáng)度被高估糊余,所以D’不適合小樣本群體研究秀又;
? LD衰減作圖中通常采用r2來(lái)表示群體的LD水平;
? Haplotype Block中通常采用D’來(lái)定義Block贬芥;
? 遷移吐辙、突變、選擇蘸劈、有限的群體大小以及其他引起等位基因頻率改變的因素都
會(huì)引起LD的改變昏苏。
LD衰減
? LD的衰減指位點(diǎn)間由連鎖不平衡到連鎖平衡的演變過(guò)程;
? LD的衰減距離決定關(guān)聯(lián)分析時(shí)所需標(biāo)記密度威沫,也在一定程度上決定關(guān)聯(lián)分析的精度贤惯。
Haplotype Block
? 單體型塊,即連鎖不平衡區(qū)域棒掠,是指同一條染色體上處于連鎖不平衡狀態(tài)的一段連續(xù)的區(qū)域
? 單體型塊分析可以用于篩選 tag SNP孵构、確定候選基因的范圍等
2、材料選擇與群體設(shè)計(jì)
材料選擇的基本原則
基本原則
1)遺傳變異和表型變異豐富
2)群體結(jié)構(gòu)分化不能過(guò)于明顯(如亞種以上,發(fā)生生殖隔離是不能做GWAS的)
樣本量
非稀有變異中烟很,對(duì)中等變異解釋率(10%左右)的位點(diǎn)的檢測(cè)功效要達(dá)到80%以上時(shí)颈墅,需要的樣本量在400左右
位點(diǎn)的效應(yīng)越低,需要的樣本量越大
群體類(lèi)型
?種質(zhì)資源材料
? 遺傳變異豐富雾袱,可以同時(shí)對(duì)多個(gè)性狀進(jìn)行分析
? 群體結(jié)構(gòu)復(fù)雜恤筛,稀有變異多,遺傳信息丟失明顯
?人工群體
? 包括F2芹橡、半同胞家系叹俏、動(dòng)物遠(yuǎn)交群體、NAM群體僻族、MAGIC群體和ROAM等群體類(lèi)型。背景單純屡谐,檢測(cè)功效高述么;可以放大稀有變異
? 遺傳變異不夠豐富,重組事件有限愕掏,定位精度可能較低
表型調(diào)查
精確的表型檢測(cè)是關(guān)聯(lián)分析的關(guān)鍵
GWAS對(duì)數(shù)量性狀和質(zhì)量性狀都適用
? 數(shù)量性狀:多基因控制度秘,能夠測(cè)量得到具體數(shù)值,符合正態(tài)分布饵撑;考慮到數(shù)量性狀受環(huán)境影響大剑梳,建議將所有材料在同一環(huán)境下培育或養(yǎng)殖,或者用多年多點(diǎn)的數(shù)據(jù)分開(kāi)分析后綜合結(jié)果或取BLUP值作為性
狀值進(jìn)行關(guān)聯(lián)分析滑潘。
? 質(zhì)量性狀:?jiǎn)位蚩刂乒敢遥瑹o(wú)法用具體數(shù)值衡量,可轉(zhuǎn)換成0语卤、1等表示追逮,需注意每個(gè)群體選取近似的樣本酪刀。
? 分級(jí)性狀:表型分布類(lèi)似質(zhì)量性狀,但實(shí)際受多基因控制(數(shù)量性狀)钮孵,如抗性性狀骂倘,因此需要提供每一個(gè)個(gè)體精確的測(cè)量數(shù)據(jù)。
? 多指標(biāo)性狀:有多個(gè)指標(biāo)可以同時(shí)度量時(shí)巴席,找出代表原表型數(shù)據(jù)變異的主成分因子历涝,作為關(guān)聯(lián)分析的表型數(shù)據(jù)
標(biāo)記開(kāi)發(fā)與分型
? 實(shí)驗(yàn)室常用標(biāo)記(SSR等)
? SNP芯片
? NGS開(kāi)發(fā)SNP、small Indel漾唉、CNV荧库、SV標(biāo)記
縱深研究--基因克隆示例
材料:381份粳稻品種(熱帶和溫帶品種)
1、關(guān)于水稻谷粒大小的性狀毡证,GWAS定位到7號(hào)染色體电爹,SNP峰值所在地方注釋到11個(gè)基因;
2料睛、對(duì)11個(gè)基因分別在稻穗丐箩、葉片和根系中做RT-PCR,只有第9個(gè)基因OsSPL13在稻穗中表達(dá)有差異恤煞;
3屎勘、OsSPL13基因蛋白表達(dá)的進(jìn)一步驗(yàn)證;
4居扒、分析OsSPL13基因在水稻大粒和小粒之間的序列差異概漱,包括SNP位點(diǎn)和小的indel;
5喜喂、通過(guò)轉(zhuǎn)基因找到影響OsSPL13基因表達(dá)相關(guān)的相關(guān)區(qū)域(5’UTR中的一個(gè)串聯(lián)重復(fù)序列)瓤摧;
6、通過(guò)RNA干擾的方法將大粒品種GP579和小粒品種Dongjing中OsSPL13的表達(dá)量下調(diào)后會(huì)使水稻籽粒的長(zhǎng)度和粒重都顯著降低玉吁;
7照弥、篩選到1個(gè)Dongjing來(lái)源的glw7突變體,粒長(zhǎng)和粒重比野生型均明顯降低进副;
8这揣、通過(guò)chip-seq進(jìn)行OsSPL13調(diào)節(jié)下游基因的驗(yàn)證(結(jié)果未示)SRS5和DEP1。