泛基因組的定義
首先父腕,為了讓行外或者感興趣的朋友知道什么是泛基因組预明,請大家參考我之前寫的一篇文章。這篇文章詳細介紹了泛基因組的相關知識秽五,能夠快速讓你入門這個研究話題。
泛基因組近年來的研究
物種 | 泛基因組建立方法 | 來源 | 期刊 |
---|---|---|---|
Cultivated and wild rice | De novo assembly | Zhao, Feng et al. 2018 | Nature genetics |
Brachypodim distachyon | De novo assembly | Gordon, Contreras-Moreira et al. 2017 | Nature communication |
Hexaploid bread wheat | Itrearitve mapping and assembly | Montenegro, Golicz et al. 2017 | PBJ |
Brassica oleracea | Itrearitve mapping and assembly | Golicz, Bayer et al. 2016 | Nature Communication |
Brassica napus | Itrearitve mapping and assembly | Hurgobin, Golicz et al. 2017 | PBJ |
Wild type soybean (Glycine soja) | De novo assembly | Li, Zhou et al. 2014 | Nature Biotechonology |
Maize | Novel Transcript Assembly | Hirsch, Foerster et al. 2014 | The plant cwell |
心得分享
由于一般泛基因組的數據分析都沒有表觀的數據饥悴,往往找到了一些novel的基因之后坦喘,就缺少一些實質表觀的驗證,所以火爆程度相對CRISPR西设,single cell 其他熱點來說還是比較溫火瓣铣。
但總體來說,泛基因組都基本可以發(fā)到至少6分以上甚至像最近接近40分的期刊贷揽。在通讀了最近兩篇Nature的文章棠笑,我根據個人經驗,總結這兩篇文章的一些亮點 (Gordon, Contreras-Moreira et al. 2017禽绪, Zhao, Feng et al. 2018)蓖救。
- 驗證洪规! 再說一次驗證!
我發(fā)現這兩篇nature文章都有一個共同的特點循捺,處處都在驗證淹冰。從一開始的de novo assembly結果,作者就將自己使用的assembly泛基因組的方法巨柒,用于assembly ref raw data樱拴。通過對比,自己assembly出來的 ref 和 已經發(fā)表的 ref genome 的assembly洋满,rice的那篇文章更加有用到BAC對其中一個有代表性的line進行驗證晶乔,從而證明所用的assembly的結果是精準的。然后到annotation牺勾,通過對比自己做出來的gene annotation 和 已經發(fā)表的gene annotation正罢。再加上比對不同lines之前annotation的結果,驗證所用annotation方法的準確率驻民。然后同樣到PAV 和 SNP calling的結果翻具,都是環(huán)環(huán)相接,結果和認證都不漏回还。
2.尋找獨特的切入點
這點我相信是每一篇文章最重要的一部分裆泳。rice 那篇泛基因組,通過獨特的視角柠硕,對rice 的domestication 和 introgression 進行研究工禾。然后對某些特別的SNPs進行深入的挖掘,這都是為什么這篇文章可以脫穎而出的原因蝗柔。然后就是Brachypodim distachyon這文章闻葵。其亮點就是它不單對non-TE genes進行了研究,也從TE 的角度解析了為啥Brachypodim distachyon 會有獨特的PAV pattern癣丧。我覺得這點可以值得所有同行學習槽畔。repeat sequences 中TE等片段確實值得再深入發(fā)掘。然后這篇文章也試圖將core gene 和variable gene 進行 更加深層的分組胁编。確實可以提供更加深層的視角研究variable gene厢钧,但個人感覺也有點將問題復雜化了一些。
- core gene clusters contained all lines, including the softcore gene clusters contained 53–55 lines (95–98%); shell gene clusters contained 3–52 lines (5–94%); and cloud gene clusters contained 1 or 2 lines (2–5%)
總結
有效的對每一個小步驟反復認證是一篇好的泛基因組文章的前提掏呼,要不然其他人會質問你的結果的可信度坏快,究竟你的結果是真的還是因為使用工具的異同造成的铅檩。另外憎夷,在泛基因組pipeline比較成熟的情況下,尋找有意義感興趣的生物學問題昧旨,對你的結果進行解析也是發(fā)好文章成功的關鍵拾给。