從基因組中提取啟動(dòng)子序列琅坡,UTR序列往往是費(fèi)時(shí)費(fèi)力的過(guò)程悉患。SPDE的gene模塊是專(zhuān)門(mén)為那些從事純粹實(shí)驗(yàn)工作的老師與學(xué)生設(shè)計(jì)。其具體過(guò)程如下:
點(diǎn)擊SPDE的gene模塊(如紅色箭頭所示):
在第二個(gè)板塊中榆俺,用戶可以提取啟動(dòng)子序列(①)售躁,不含UTR區(qū)基因全長(zhǎng)(②),含有UTR區(qū)的基因全長(zhǎng)(③)以及提取UTR區(qū)(④):
其使用過(guò)程只需要按照軟件表面的提示輸入相應(yīng)內(nèi)容即可茴晋。
第一個(gè)框中提示的是基因ID:請(qǐng)大家注意陪捷,這里的基因ID指的是GFF/GFF3文件mRNA這一行所對(duì)應(yīng)的ID,如下圖所示:
第二框提示的是啟動(dòng)子長(zhǎng)度晃跺,給大家默認(rèn)提取的是2000 bp長(zhǎng)度,對(duì)啟動(dòng)子克隆而言毫玖,該長(zhǎng)度足夠掀虎。因此,如果你想提取的確實(shí)是2000 bp付枫,那么該位置不需要輸入數(shù)值烹玉,但,如果有其他長(zhǎng)度需求阐滩,那么想提取多長(zhǎng)二打,就輸入多長(zhǎng)即可,例如輸入1500:
第三框掂榔,提示的是輸入原始的GFF/GFF3文件继效。那么,這個(gè)文件就是原始的GFF文件装获,其基本形式應(yīng)該是或者類(lèi)似這樣子:
第四框瑞信,提示的是輸入格式化的基因組序列文件⊙ㄔィ基因組序列文件指的是標(biāo)明每條染色體或者scaffold上有哪些序列的文件凡简,例如:
而格式化的意思是需要將你的基因組序列文件進(jìn)行處理,生成一個(gè)可利用的索引文件(即fai文件)精肃。該過(guò)程的實(shí)現(xiàn)放在了SPDE的format模塊秤涩,如下:
會(huì)生成一個(gè)后綴為fai的文件,在這里司抱,同學(xué)們需要注意筐眷,剛剛上面所說(shuō)的第四個(gè)框中放入的文件是基因組序列文件而不是生成的這個(gè)fai文件,大家可以將fai文件理解成一本書(shū)的目錄而我們想要閱讀的并不是書(shū)的目錄而是書(shū)的內(nèi)容习柠,但目錄的存在可以使我們更方便的找到想要的內(nèi)容浊竟,僅此而已怨喘。所以,正式放入的應(yīng)該是基因組序列文件振定。另外必怜,需要對(duì)放入的ID補(bǔ)充一點(diǎn):SPDE默認(rèn)的ID是gff文件中關(guān)鍵詞mRNA所對(duì)應(yīng)的后面的ID,如下圖所示:
ID指的是等號(hào)之后后频,分號(hào)之前的部分梳庆。用gff文件時(shí)請(qǐng)大家檢查三個(gè)問(wèn)題:一個(gè)是gff文件第一列所注明的染色體ID是否與你基因組文件格式化后產(chǎn)生的fai文件中的ID是一致的?第二個(gè)是你的gff文件里是否有關(guān)鍵詞mRNA(如果沒(méi)有的話可以批量替換一下)卑惜?第三個(gè)是你所使用的ID是否是正確的膏执?給大家提供了一個(gè)只需要輸入ID就可以從基因組文件中提取序列的方法,方便的同時(shí)也對(duì)文件格式有嚴(yán)格的要求露久。有些感慨更米,魚(yú)與熊掌不可兼得。不過(guò)毫痕,在后續(xù)的版本中會(huì)考慮另外的形式以解決這個(gè)問(wèn)題征峦。
當(dāng)上述四個(gè)框按照提示放入正確的文件或者信息后,只要點(diǎn)擊相應(yīng)的按鈕消请,就可以在右側(cè)的框中看到相應(yīng)的序列栏笆,例如:
在提取啟動(dòng)子后,大家可能要設(shè)計(jì)引物進(jìn)行克隆臊泰。在第一個(gè)模塊的第三個(gè)部分蛉加,安排了引物設(shè)計(jì)功能。這部分的核心是primer3程序缸逃≌爰ⅲ基本用法只需要按照界面提示進(jìn)行即可,有以下幾個(gè)點(diǎn)需频,請(qǐng)大家注意:
第一框中是放入基因序列打厘,那么只需要將你的序列拷貝進(jìn)來(lái)即可。在NCBI或者擬南芥的Tail數(shù)據(jù)庫(kù)贺辰,大家經(jīng)郴Фⅲ可以看到這種類(lèi)型的序列:
前面有數(shù)字,序列與序列間有空格饲化。這種序列大家并不需要額外處理莽鸭,直接拷貝就好。在程序設(shè)計(jì)的過(guò)程中已經(jīng)考慮到這個(gè)問(wèn)題吃靠,SPDE會(huì)自動(dòng)幫大家去除這些額外的東西硫眨。
第二框中是輸入PCR產(chǎn)物的長(zhǎng)度。這里放入的一定是一個(gè)范圍巢块,例如礁阁,150-250巧号。兩個(gè)數(shù)字中間由英文狀態(tài)的短橫線連接。如果只放入150姥闭,這樣的單個(gè)數(shù)字是無(wú)法得到結(jié)果的丹鸿。原因很簡(jiǎn)單,假設(shè)序列長(zhǎng)度就是150 bp而你放入150棚品,那么引物就只能一頭一尾的20 bp左右的序列靠欢,這種情況根本沒(méi)有設(shè)計(jì)的必要。
第三框是可選選項(xiàng)铜跑,不是必須填寫(xiě)的门怪。這個(gè)框的作用是為了限定引物產(chǎn)生的區(qū)域。輸入的數(shù)據(jù)格式是F端引物起始位置+逗號(hào)+長(zhǎng)度+逗號(hào)+R端引物起始位置+逗號(hào)+長(zhǎng)度锅纺。例如掷空,我想要在序列的100到300 bp產(chǎn)生我的F端引物而將R端引物設(shè)計(jì)在序列的450到600 bp這個(gè)區(qū)間內(nèi),那么這個(gè)時(shí)候囤锉,你的輸入內(nèi)容應(yīng)該是:100,200,450,150坦弟。注意要在英文狀態(tài)下輸入。如果嚼锄,我只想限定F端引物在100到300bp减拭,而R端引物隨意蔽豺,那么這個(gè)時(shí)候該如何設(shè)定呢区丑?例如:100,200,,。請(qǐng)注意修陡,雖然你的R端隨意沧侥,數(shù)字不需要寫(xiě),但逗號(hào)需要保留魄鸦。如果F端隨意而R端需要限定宴杀,那么方法雷同。另外拾因,需要注意的是旺罢,這個(gè)限定的范圍不應(yīng)該超過(guò)你輸入的PCR產(chǎn)物的長(zhǎng)度。假設(shè)你的PCR產(chǎn)物長(zhǎng)度是100 bp而你輸入的限定條件是100,200,450,150绢记。這個(gè)限定所產(chǎn)生的產(chǎn)物的最短長(zhǎng)度應(yīng)該是150 bp扁达。這與你的PCR產(chǎn)物長(zhǎng)度是沖突的,這個(gè)時(shí)候會(huì)出現(xiàn)錯(cuò)誤蠢熄。
第四框是產(chǎn)生控制文件跪解。這個(gè)控制文件里的內(nèi)容是已經(jīng)經(jīng)過(guò)調(diào)整的、關(guān)于引物設(shè)計(jì)的各類(lèi)參數(shù)签孔,請(qǐng)大家安心叉讥,SPDE中所設(shè)計(jì)的引物窘行,已經(jīng)經(jīng)過(guò)了qPCR驗(yàn)證,一般情況下是沒(méi)有問(wèn)題的图仓。但罐盔,考慮到可能某些同學(xué)對(duì)引物有特殊的設(shè)計(jì)需求,因此決定將這個(gè)控制文件還是提供給大家透绩。在產(chǎn)生控制文件后翘骂,如果還是需要對(duì)參數(shù)進(jìn)行調(diào)整,那么只需要在產(chǎn)生的控制文件的相應(yīng)部分更改帚豪,然后保存即可碳竟。控制文件的產(chǎn)生是點(diǎn)擊按鈕“generate the control file” 完成的狸臣,如下:
建議大家也將文件的名字直接命名成control.txt就好莹桅。當(dāng)然,如果對(duì)引物參數(shù)(例如烛亦,GC含量诈泼,Tm值范圍)沒(méi)有特殊需求,那么在設(shè)計(jì)完引物后煤禽,將該文件直接刪除就好铐达。簡(jiǎn)單點(diǎn)兒說(shuō)就是,控制文件可能不需操作檬果,但一定要有瓮孙。
完成這些之后,點(diǎn)擊下面的設(shè)計(jì)引物按鈕选脊,那么就會(huì)在右側(cè)的框中顯示設(shè)計(jì)的結(jié)果杭抠,如下:
當(dāng)然,除了上述功能恳啥,第一模塊還提供了其他一些小的功能偏灿,方便大家日常的一些序列處理,這些序列處理包括:
將DNA轉(zhuǎn)為RNA钝的;計(jì)算輸入序列的長(zhǎng)度翁垂;計(jì)算GC含量;將序列反向硝桩;翻譯DNA序列沿猜;將序列反向互補(bǔ)。最后一個(gè)是移除額外信息亿柑。針對(duì)的仍然是像NCBI中的這種帶有大量額外字符的序列(如上數(shù)第十圖)邢疙。結(jié)果是序列前面的數(shù)字和序列中的空格將被全部去除并且將不同行的序列歸到一行中。想要使用哪個(gè)功能,直接點(diǎn)擊該功能前的圓圈即可疟游。
補(bǔ)充:最近經(jīng)常有同學(xué)向我詢問(wèn)全長(zhǎng)引物的設(shè)計(jì)方法呼畸。這里包括兩種不同的方案。如果沒(méi)有所研究物種的基因組序列颁虐,沒(méi)什么好說(shuō)的蛮原,這種情況都不需要設(shè)計(jì),直接從ATG和終止密碼子起分別向后及向前截取大約20bp另绩,然后注意終止密碼子那段反向互補(bǔ)就可以儒陨,可能有同學(xué)要問(wèn)了,如果這樣設(shè)計(jì)的不行怎么辦笋籽,答案是沒(méi)辦法蹦漠,當(dāng)然也可以硬做,去網(wǎng)上搜一下兼并引物的設(shè)計(jì)方法车海,然后一點(diǎn)兒一點(diǎn)兒擴(kuò)增試試看笛园。在我看來(lái)基因組序列是分子生物學(xué)很重要的一個(gè)基礎(chǔ),如果沒(méi)有這個(gè)基礎(chǔ)侍芝,還想做分子生物學(xué)這真的會(huì)是項(xiàng)大工程~研铆,所以目前這么多人測(cè)基因組也不是沒(méi)有原因。第二種是有基因組序列州叠。前面提到SPDE可以提取UTR區(qū)棵红。所以整個(gè)思路是利用SPDE提取UTR區(qū),5‘和3’端都要咧栗,然后將它們分別貼到ATG和終止密碼子兩端逆甜,將序列長(zhǎng)度(當(dāng)然是從ATG到終止密碼子,不包括你貼進(jìn)來(lái)的UTR區(qū))設(shè)定為引物的產(chǎn)物長(zhǎng)度楼熄,然后用SPDE設(shè)計(jì)忆绰。完成后檢驗(yàn)左右兩段引物是否跨越了整個(gè)序列區(qū)浩峡,如果跨越就用它就好可岂,如果沒(méi)有跨越那么產(chǎn)物長(zhǎng)度不變,然后規(guī)定一下一端引物所必須在的區(qū)域翰灾,設(shè)計(jì)后看另一端差了多少缕粹,那么可以先用這對(duì)引物擴(kuò)增,得到產(chǎn)物后纸淮,將PCR產(chǎn)物作為模板平斩,把差的那些序列直接接到引物上(注意如果是R端引物需要反向互補(bǔ)),再擴(kuò)增咽块。這種方法可能出現(xiàn)的尷尬情況是沒(méi)有找到UTR區(qū)或者只能找到一段(比如只能找到5‘端的)绘面,這種情況也正常,并不是所有基因都有UTR區(qū)~這種情況,要不就先規(guī)定一端引物所在區(qū)域揭璃,該怎么做怎么做晚凿,然后用PCR產(chǎn)物為模板,通過(guò)不斷向引物添加需要的序列來(lái)將這段延長(zhǎng)~總之瘦馍,既然序列都知道了歼秽,想把這段序列克隆出來(lái)應(yīng)該是問(wèn)題不大的,只是有些序列需要費(fèi)點(diǎn)兒事~