查閱文獻(xiàn)或者專利時膘婶,有一個序列是你非常需要,但是相關(guān)文獻(xiàn)/專利只提供了相關(guān)引物以及該引物所在基因名伪货,并沒有提供可擴(kuò)增得到的具體序列以及位置信息威鹿,當(dāng)然可以進(jìn)行PCR實驗擴(kuò)增出目標(biāo)序列,再進(jìn)行測序即可得到目標(biāo)序列瞬逊。但是這有些麻煩了显歧,下面介紹一下我是如何通過生信的手段只根據(jù)雙端引物來一步一步確定該引物可擴(kuò)增得到的目標(biāo)序列以及在目標(biāo)序列人類基因組上的具體坐標(biāo)的:
這里我介紹了兩種方法:
1.? 基于UCSC的In-Silico PCR工具(http://genome.ucsc.edu/cgi-bin/hgPcr):適合小數(shù)據(jù)量操作仪或,一般足夠使用,適合生信小白士骤。
2.? 基于手動Blast對比尋找:適合批量操作范删,有很多使用In-Silico PCR不能找到的序列,可以使用該方法查找到拷肌,但是該方法需要有較強(qiáng)的生信基礎(chǔ)(會操作linux到旦,會使用相關(guān)腳本語言python或perl)。
那就像專利似的搞一個實施例吧:
比如在文獻(xiàn)中找到的下表的某一個序列巨缘,你非常需要該序列在基因組的具體位置信息添忘,但是文獻(xiàn)中只提供了前后兩個引物Primer1/Primer2,基因名還有目標(biāo)產(chǎn)物的長度:
Gene:HS3ST2
PCR product size:140bp
Primer-1:ATAATTTCCAGAAAG
Primer-2:AGCATGAGAAAGAGGGACA
首先使用UCSC的 In-Silico PCR工具若锁,將兩個序列分別輸入(一定要勾選Flip Reverse Primer框搁骑,因為文獻(xiàn)/專利提供引物方向不確定):
然后點擊submit即可,如果成功又固,會顯示以下的結(jié)果(給出了序列的位置和具體的序列信息仲器,還提供了退火溫度等):
但是該工具難以批量操作,那么接下來我介紹一下第二種方法是如何進(jìn)行批量操作的:
1. 將所選序列存成Fasta文件格式
2. 進(jìn)行Blast口予,見具體代碼:
blastn -task blastn-short -query Target.fasta? -evalue 100 -word_size 4 -db hg19_genome -outblast.xls -outfmt 7 -num_threads 20 >CT.log2>&1 &
因為引物序列較短娄周,因此blastn使用blastn-short模式,Target.fasta存儲了上一步的序列信息沪停,-db 后邊輸入的是人hg19的參考基因組煤辨,-out是輸出信息,-outformat是輸出文件格式木张,其中7是tab分隔文件众辨。
最關(guān)鍵的除了blastn-short模式,另外兩個參數(shù)是-evalue和-wordsize
其中evalue就是期望值舷礼,該值設(shè)置越小說明比對結(jié)果越準(zhǔn)確鹃彻,但是結(jié)果數(shù)目也越少;wordsize表示length of best perfect match妻献,即最佳匹配的長度攻礼,該值設(shè)置越大,得到結(jié)果越準(zhǔn)確囊嘉,得到匹配結(jié)果也越少这橙。
為了得到盡量多的比對結(jié)果,因此盡量要把兩個條件設(shè)的寬松一些熬丧,根據(jù)測試結(jié)果最后將evalue設(shè)為了100(blastn默認(rèn)該值為10)笋粟,wordsize設(shè)為了4。
3. blast結(jié)果匯總
blastn得到的結(jié)果:有表頭和Primer1,Primer2比對到的所有結(jié)果:結(jié)果中有詳細(xì)的比對位置等信息
Primer1候選結(jié)果1153個害捕,Primer2候選結(jié)果524個绿淋,那么如何從這么多候選結(jié)果中找到目標(biāo)組合呢:
具體的腳本有些復(fù)雜,我就不放在這里了尝盼,主要說一下操作的思路:
a. 下載hg19的參考基因區(qū)間信息文件(rsync -a -P rsync://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/refGene.txt.gz ./)吞滞,該文件列出了hg19所有基因及其相關(guān)轉(zhuǎn)錄本的位置信息;b. 下載經(jīng)典轉(zhuǎn)錄本文件(參考https://github.com/fanyucai1/canonical_transcript)东涡;c. 根據(jù)以上兩個文件寫腳本篩選出位于目標(biāo)基因(HS3ST2)所在經(jīng)典轉(zhuǎn)錄本位置區(qū)間上下游5kb之內(nèi)的所有比對結(jié)果
4. 結(jié)果
上一步最終篩選得到的結(jié)果如下表:雖然上述初始比對結(jié)果很多冯吓,但是位于目標(biāo)基因區(qū)間只有以下18個比對結(jié)果,將比對結(jié)果按照比對的Start位置從低到高排序疮跑,然后挑選PrimerID一列中上下兩列不同的組合组贺,最后根據(jù)Length(后一列的Start減去前一列的End得到)確定最終的組合(標(biāo)黃),所得組合產(chǎn)物長度(141bp)與文獻(xiàn)中所給(140bp)相吻合(經(jīng)多個引物測試一般最后得到的組合的長度與文獻(xiàn)中所給的目標(biāo)產(chǎn)物長度相差在5bp之內(nèi))
這就得到了你想要的PCR產(chǎn)物所在位置W婺铩失尖!至于具體序列使用samtools faidx獲取即可。