精確的表型檢測是關(guān)聯(lián)分析的關(guān)鍵幌甘,GWAS對數(shù)量性狀和質(zhì)量性狀都適用贝椿。
1.各類性狀的特點及鑒定與考察建議
2.表型的基本處理
2.1 正態(tài)性檢驗
- 關(guān)聯(lián)分析屬于線性模型州邢,要求數(shù)據(jù)必須符合正態(tài)分布袖瞻;
- 正態(tài)性檢驗簡單直觀的方法是繪制頻率分布圖伐蒂,觀測數(shù)據(jù)分布情況煞躬;
- 可以使用Shapiro-Wilk方法進行檢測;
- 不太符合正態(tài)分布的數(shù)據(jù)有時也可能獲得不錯的關(guān)聯(lián)結(jié)果逸邦,需要警惕結(jié)果真實性恩沛。
2.2 去除極端異常值
極大或極小的異常值可能引起關(guān)聯(lián)結(jié)果的異常,在分析前需要去除缕减。
- 排序觀察法雷客,適用于表型種類較少時;
- 3sigma規(guī)則:均值加減三倍標準差的范圍內(nèi)為正常值桥狡,其他為異常值搅裙;
-
箱線圖:在觸須外的值均可以認為是異常值。
2.3 多年多點表型值處理
- 性狀遺傳力高裹芝,受環(huán)境影響不大部逮,可以根據(jù)多年多點的結(jié)果取均值或BLUE值作為該性狀的代表值進行分析廊蜒;
- 若性狀遺傳力低藏澳,受環(huán)境影響大,可每年每點單獨分析后綜合評判結(jié)果渐溶,在獲得定位結(jié)果的同時進行G×E分析怜械。
2.4 數(shù)據(jù)標準化
- 數(shù)據(jù)標準化針對絕對值較大蜈漓,且有明顯梯度間隔的表型穆桂,絕對值較小的比較連續(xù)的表型可以不進行標準化,直接用于關(guān)聯(lián)分析融虽。
- 所有標準化都不會也不能影響該組數(shù)據(jù)本身的大小趨勢享完,因此也不會改變關(guān)聯(lián)結(jié)果。
- min-max標準化有额,也叫離差標準化般又,也就是常說的歸一化,絕對值較大且有明顯梯度的數(shù)據(jù)通常采用該方法巍佑,公式為:
- y=(x-min(x))/(max(x)-min(x))茴迁,y為標準化后的值,x為原始值萤衰;
- min-max標準化后所有的值都在0-1之間堕义。
- Z-score標準化:z=(x-μ)/σ,其中x為某一具體分數(shù)脆栋,μ為平均數(shù)倦卖,σ為標準差。
2.5 分類變量的啞變量賦值
-
對于無序分類數(shù)據(jù)椿争,如花色或果皮顏色等怕膛,可以對變量進行啞變量賦值,以紅秦踪、黃褐捻、藍為例,可依次按如下的方式賦值:
幾種方式賦值后分別進行關(guān)聯(lián)分析椅邓,獲得的結(jié)果綜合為最終的結(jié)果柠逞,賦值時需要注意1和0比例不要太懸殊。
引用轉(zhuǎn)載請注明出處景馁,如有錯誤敬請指出边苹。