前言
? ? ? ?水產(chǎn)動(dòng)物選擇育種,簡(jiǎn)單來說侧蘸,就是挑選出合適的父母本,制定合理的育種方案讳癌,然后生產(chǎn)出經(jīng)濟(jì)性狀優(yōu)良的后代群體,最后賺了一個(gè)億逢艘,贏娶白富美走向人生巔峰的一門學(xué)科骤菠。我也是懷揣著這樣一個(gè)夢(mèng)想,選擇了這條道路央拖,我想各位也是鹉戚。夢(mèng)想一定要有的,萬一實(shí)現(xiàn)了呢袍啡?
? ? ? ?自己真正接觸蝦類遺傳育種也才一年的時(shí)間却桶,初踏入這個(gè)領(lǐng)域蔗牡,我一知半解甚至只是略懂皮毛的地方太多了辩越。這是一門交叉學(xué)科,需要我們了解的知識(shí)面很多趁啸,例如生物統(tǒng)計(jì)學(xué)督惰,遺傳學(xué),育種學(xué)赏胚,分子生物學(xué)觉阅,計(jì)算機(jī)語言等秘车,而且需要我們時(shí)刻的補(bǔ)充甚至更新自己的知識(shí)庫叮趴。在這里分享并且總結(jié)一下自己的經(jīng)驗(yàn)权烧,應(yīng)該如何快速了解和入門這個(gè)領(lǐng)域,盡量少走彎路搔驼,到所里能盡快上手所分配的工作侈询。
? ? ? ?下面結(jié)合實(shí)際數(shù)據(jù)分析流程扔字,介紹一些學(xué)習(xí)的資料,結(jié)合自己的方向革为,可以有選擇性的閱讀。
? ? ? ?首先墻裂推薦這個(gè)博客琢蛤,淡泊明志/寧靜致遠(yuǎn) 博其,很多知識(shí)點(diǎn)講解的很明白,且遇到不懂的問題容易聯(lián)系作者慕淡。還有鄧飛的博客鄧飛的博客?
1峰髓、理論學(xué)習(xí)與專業(yè)應(yīng)用
? ? ? ?我們得到的數(shù)據(jù)中息尺,有個(gè)體的名稱,父母本眉孩,家系類型,測(cè)試池類別巴柿,世代死遭,性別呀潭,日齡,體重等記錄钠署,你可能會(huì)想谐鼎,直接記錄體重等表型就好了,為什么還要記錄這些狸棍?舉個(gè)例子,在一組數(shù)據(jù)中塌鸯,我們想比較雌雄蝦的體重差異唐片,利用數(shù)據(jù)直接作圖如下:
? ? ? ?圖一你可以看到雌雄之間的體重差異還是挺大的,下面再做一個(gè)不同測(cè)試池對(duì)應(yīng)的體重差異淮悼,如下圖:
? ? ? ?a) 可以看到,不同測(cè)試池也對(duì)蝦的體重有影響钉汗,那說明如果單純的利用數(shù)據(jù)中的體重鲤屡,是有誤差不準(zhǔn)確的,如果想知道真實(shí)的雌雄蝦體重的差異卢未,需要排除測(cè)試池等因素的影響辽社。所以接下來,會(huì)用到線性模型的理論知識(shí)戳葵,"Linear Models for the prediction of Animal Breeding Values" (第三版)或欒老師博客中也有詳細(xì)介紹汉匙。
? ? ? ?b) 有時(shí)候需要看兩組數(shù)據(jù)是不是存在顯著性差異或者我們?cè)诖_定模型之前噩翠,需要對(duì)模型中的每一個(gè)效應(yīng)進(jìn)行顯著性檢驗(yàn),這時(shí)候需要生物統(tǒng)計(jì)學(xué)的知識(shí)擅笔,可以看杜榮騫的生物統(tǒng)計(jì)學(xué)(第四版)见芹;一些遺傳選擇育種方面的書玄呛,有一本講的很全面,"Genetic data analysis for plant and animal breeding"-Springer (2017)耳胎,是結(jié)合asreml-win來講的惕它,有線性模型淹魄,多性狀模型,方差組分甲锡,育種值缤沦,以及基因組育種等的介紹缸废;另外還有驶社,"selective breeding program in Aquaculture"测萎;張沅的 "家畜育種學(xué)"(第二版)绳泉。
? ? ? ?c) 張勤教授的"動(dòng)物遺傳育種中的計(jì)算方法", 里面有詳細(xì)的介紹遺傳評(píng)估的計(jì)算過程冒嫡,更能加深理解四苇。我們做遺傳評(píng)估計(jì)算過程主要是分兩步月腋,首先用 REML(約束最大似然法)的方法榆骚,根據(jù)表型和親緣關(guān)系估算出方差組分,然后再利用BLUP(最佳線性無偏預(yù)測(cè))或GBLUP的方法估計(jì)育種值捌省,遺傳力纲缓,遺傳進(jìn)展等。在這里我想先明確一個(gè)核心概念喊废,育種值(breeding values)祝高。因?yàn)槲以谝婚_始的時(shí)候?qū)@個(gè)概念很模糊,所以在這里我試著看能不能以一個(gè)簡(jiǎn)單的方式解釋一下污筷。
? ? ? ?個(gè)體育種值是沒有辦法實(shí)際測(cè)量的工闺,能測(cè)量到的數(shù)據(jù)是包含育種值在內(nèi)的遺傳效應(yīng)和環(huán)境效應(yīng)共同作用得到的實(shí)際表型數(shù)據(jù),例如收獲體重瓣蛀、體長(zhǎng)等陆蟆,只能通過統(tǒng)計(jì)學(xué)的方法,結(jié)合表型數(shù)據(jù)和個(gè)體之間的親緣關(guān)系(可由系譜或分子標(biāo)記技術(shù)得到)對(duì)育種值進(jìn)行估計(jì)揪惦。動(dòng)物經(jīng)濟(jì)性狀一般來說都屬于數(shù)量性狀,根據(jù)數(shù)量遺傳理論,數(shù)量性狀在遺傳上受多個(gè)微效基因的控制,各個(gè)基因的效應(yīng)是可加的,所有基因效應(yīng)的累加值稱為育種值罗侯。遺傳效應(yīng)分為三種器腋,加性遺傳效應(yīng),上位效應(yīng)和顯性效應(yīng),但是后兩項(xiàng)在遺傳給后代時(shí)纫塌,由于基因的分離和重組,這兩部分一般不能確定遺傳依痊,是不能被固定的效應(yīng),只有加性遺傳效應(yīng)性宏,是可以穩(wěn)定遺傳下去的。在實(shí)際生產(chǎn)中酵使,育種值是我們挑選種蝦的主要依據(jù)。我們獲得所有蝦的收獲表型數(shù)據(jù)進(jìn)行遺傳評(píng)估后,每個(gè)個(gè)體的育種值會(huì)被估算出來混巧,接下來對(duì)所有個(gè)體的育種值進(jìn)行排名,選擇育種值排名較高的個(gè)體作為種蝦的候選群體深员,接下來為配種方案做準(zhǔn)備。
2叠赐、常用工具
? ? ? ?目前我們做數(shù)據(jù)分析的主要工具是R(RStudio)語言赛不,這是一個(gè)開源平臺(tái),區(qū)別于像SPSS殿较,ORIGIN等點(diǎn)擊式軟件触机,R需要自己編寫代碼來運(yùn)行得到你所想要的結(jié)果片任,它的優(yōu)勢(shì)就在于靈活,沒有局限性产场,功能豐富全面等。所以确徙,需要有編程基礎(chǔ),可以先初步學(xué)習(xí)一些基本操作語句伴逸,這本書應(yīng)該能幫到你:"R語言實(shí)戰(zhàn)"博烂。學(xué)術(shù)討論群中有電子版畜伐,也可以買正版書籍万矾,學(xué)起來比較方便。R語言實(shí)戰(zhàn)。此外严嗜,R中有全面的作圖功能,可以做出各式各樣的好看好玩的圖片,R語言實(shí)戰(zhàn)中也有介紹汗盘,但是如果有興趣可以學(xué)習(xí)這本書:"ggplot2:數(shù)據(jù)分析及圖形藝術(shù)":ggplot2家凯。有一定基礎(chǔ)和精力還可以選擇學(xué)習(xí)Python送粱。
? ? ? ?有一些常用的R包推薦,data.table 是data.frame包的擴(kuò)展槽卫,為R語言提供了快速整合和處理大型數(shù)據(jù)的能力茸塞,也能快速的讀入大數(shù)據(jù),詳細(xì)內(nèi)容和用法可以參考這篇博客:data.table效扫。dplyr包丐枉,也是一個(gè)處理數(shù)據(jù)的包弯院,能篩選异赫,分割,整合等,還有很有特色的管道符功能类浪,詳細(xì)請(qǐng)看: dplyr? 受楼。遺傳評(píng)估的相關(guān)包有,asreml,sommer等,可以擬合線性混合模型估算遺傳參數(shù)。 另外如果涉及基因組選擇,需要處理SNP數(shù)據(jù)角撞,還會(huì)用到PLINK軟件進(jìn)行數(shù)據(jù)篩選劣领,BLUPF90進(jìn)行H矩陣的構(gòu)建等,我這邊有一些基因組選擇的相關(guān)R代碼,我們可以一起討論。
? ? ? ?上面的一些書在學(xué)術(shù)討論小組群文件里是有的,可以根據(jù)自己的方向和興趣選擇性閱讀础废。最好自己有一個(gè)像博客蒿讥、簡(jiǎn)書侥钳、印象筆記之類的能夠記錄的地方给猾,在這里能不定期總結(jié)歸納新知識(shí)、下一步的計(jì)劃等每币。