更多內(nèi)容關(guān)注微信公眾號(hào):“今日之森”? ?后獲取戚宦。
【除夕當(dāng)天】
平日里也不知道忙的啥,總是疏于和朋友們聯(lián)絡(luò)锈嫩。
今年是牛年受楼,可以牛氣沖天垦搬。
吃過年夜飯,趁著過年的喜慶日子艳汽,和朋友們聯(lián)系聯(lián)系猴贰,挺好的。
有的朋友從不聯(lián)系河狐,有的朋友久不聯(lián)系米绕,有的朋友偶有聯(lián)系。
不管怎樣馋艺,過年的日子就總有理由可以聯(lián)系聯(lián)系栅干。
晚上六點(diǎn)多吃過飯看了會(huì)兒春晚就和朋友們陸續(xù)開始聯(lián)絡(luò)起來,主要是和平日里很少聯(lián)系的朋友們聯(lián)絡(luò)捐祠。簡(jiǎn)單聊了一會(huì)兒就開始和去年相識(shí)的幾個(gè)小朋友吃雞了碱鳞,打游戲還是好玩的,到了晚上十二點(diǎn)踱蛀,與兄弟三人去了家門口廟里燒香窿给,家里人說是討個(gè)來年吉祥,往年去廟里磕頭還能有個(gè)期許率拒,今年就比較簡(jiǎn)單了崩泡,磕完頭就完事兒了,心里也沒想啥有的沒的俏橘。燒完香回來也睡不著,那就簡(jiǎn)單寫點(diǎn)東西圈浇。
祝愿朋友們來年牛氣沖天寥掐,事事順順利利。
【廢話當(dāng)頭】
之前說過磷蜀,我一直在想一些關(guān)于基因家族分析的事情召耘。今天開始就寫一個(gè)基因家族分析的專題,一方面是想把一些簡(jiǎn)單的事情分享給朋友們褐隆,有問題的地方或許還可以得到朋友們的指導(dǎo)和批評(píng)污它,另一方面也是把自己學(xué)到的東西整理一下,以備將來需要庶弃。
由于自己學(xué)習(xí)的局限衫贬,有錯(cuò)誤的地方大家需要自行斟酌,當(dāng)然最好可以給我指出來歇攻。
【前言】
關(guān)于基因家族分析的概念和內(nèi)容固惯,想必大家很輕松就可以查到,這里就不再重復(fù)缴守,相關(guān)的文獻(xiàn)更是不勝枚舉葬毫,總體來看镇辉,文獻(xiàn)中關(guān)于基因家族分析的常規(guī)套路是很容易重復(fù)出來的,思路也會(huì)很簡(jiǎn)單贴捡。但是有一件事情必須清楚忽肛,簡(jiǎn)單的做一些基因家族分析并不能發(fā)很好的文章,當(dāng)然也最好不要為了發(fā)文章而學(xué)基因家族分析烂斋。要不然很容易誤入歧途而不能自拔屹逛,因?yàn)榘凑粘R?guī)套路做基因家族分析太過簡(jiǎn)單,水水文章也很輕松源祈,但是這樣煎源,很多時(shí)候也就背離了初心。因此香缺,我更傾向于將基因家族分析理解為科研入門過程中對(duì)基因序列所包含的信息進(jìn)行較為深入的認(rèn)識(shí)手销,可以對(duì)自己所研究的相關(guān)內(nèi)容起到很好的輔助作用。
【進(jìn)入主題——基因家族成員的確定】
基因家族成員的確定是進(jìn)行分析的第一步图张,也是最為關(guān)鍵的一步锋拖。由于我是研究作物的,所以后面的介紹都以植物為主進(jìn)行祸轮。
首先需要明確兽埃,對(duì)于想要研究的基因家族是否已有主要的保守結(jié)構(gòu)域的隱馬爾可夫(HMM)模型,若有适袜,則直接從Pfam網(wǎng)站下載相關(guān)模型柄错,然后使用模型文件去目標(biāo)物種基因組(蛋白)中搜索即可;若無苦酱,則需要從文獻(xiàn)中整理可靠的基因家族序列售貌,以這些序列構(gòu)建HMM模型,然后同上疫萤;若文獻(xiàn)中不好找颂跨,或者找不到,那就請(qǐng)使用NCBI中Protein數(shù)據(jù)庫搜索相似的序列扯饶,以這些序列構(gòu)建HMM模型恒削,然后同上。
整體的鑒定思路或許可以參考下面的建議:
首先使用文獻(xiàn)中已發(fā)表序列集合作為種子序列尾序,使用本地blastp比對(duì)到目標(biāo)序列钓丰。然后再使用基因家族結(jié)構(gòu)域HMM模型文件去hmmsearch第一步的結(jié)果。最后去除重復(fù)序列每币。
大致思路如上斑粱,至于上述提及的一些有疑惑的地方會(huì)在后面的介紹中提到。
【實(shí)際操作】
1脯爪、首先则北,不管目標(biāo)基因到底是個(gè)什么情況矿微,先不管,我們首先將目標(biāo)物種的相關(guān)基因組數(shù)據(jù)和注釋文件下載下來尚揣,推薦使用EnsemblPlants數(shù)據(jù)庫http://plants.ensembl.org/info/data/ftp/index.html
選擇這個(gè)網(wǎng)站涌矢,一是因?yàn)榇蠖鄶?shù)植物數(shù)據(jù)都有,二是因?yàn)樽⑨屛募容^友好快骗,三是因?yàn)榫W(wǎng)頁容易打開娜庇,下載速度較快(推薦IDM下載神器進(jìn)行下載)。
比如擬南芥(Arabidopsis thaliana )方篮,可以將DNA名秀,cDNA,CDS藕溅,Protein sequence匕得,Gene?sets(GTF&GFF3)這幾個(gè)文件都下載下來,以后會(huì)用到巾表。其他的文件大家就自行探索吧汁掠。下載好之后在后續(xù)分析過程中直接使用就好,不建議進(jìn)行手動(dòng)修改集币,尤其不建議對(duì)注釋文件(GTF考阱,GFF3)進(jìn)行修改。
2鞠苟、在Pfam網(wǎng)站https://pfam.xfam.org/下載隱馬爾可夫模型乞榨,
比如先隨便以WD40這個(gè)結(jié)構(gòu)域?yàn)槔梢钥吹紿MM?information中可以下載該結(jié)構(gòu)域的HMM模型当娱。
3吃既、以下載好的HMM模型向目標(biāo)物種基因組序列(蛋白)搜索,以得到大致的基因家族成員趾访。
這一步需要用到hmmer程序http://hmmer.org/下的子程序hmmsearch态秧。
先寫到這里董虱,睡覺扼鞋,晚安。