GSDS 是由北京大學(xué)生物信息學(xué)中心提供的用于顯示基因外顯子忌卤、內(nèi)含子监嗜、保守元件的組成和位置的一個(gè)在線服務(wù)瞧毙,全英文界面办素。由于有些地方不是很好操做玄叠,這里把我的步驟列在下面淘正。
sequence (FASTA)格式
GSDS 2.0 目前提供四種格式:BED摆马、GenBank Accession Number or GI、GTF/GFF3 和 sequence (FASTA)鸿吆。前三種我都不會(huì)囤采,所以不講。
選中 sequence (FASTA) 格式后惩淳,要求上傳 CDS sequence (FASTA) 和 Genomic sequence (FASTA) 兩種文件蕉毯。
1. 獲取 CDS sequence (FASTA)
CDS sequence (FASTA) 可以批量獲取。打開(kāi) NCBI Batch Entrez,選擇Protein代虾,上傳登陸號(hào)文件进肯,具體參考 這個(gè) 。旁邊 Send to 的時(shí)候選擇 FASTA CDS 就可以棉磨。
2. 獲取 Genomic sequence (FASTA)
而 Genomic sequence (FASTA) 獲取就較為繁瑣江掩,目前我還不知道有啥不用腳本就可以批量下載的方法。超費(fèi)時(shí)間的手動(dòng)獲取方法流程如下:
- 在 NCBI Batch Entrez 里選擇 Gene含蓉,上傳登陸號(hào)
- 點(diǎn)擊列表,進(jìn)入單個(gè)基因詳情頁(yè)
- 點(diǎn)擊右下 FASTA馅扣,獲取 DNA FASTA,復(fù)制結(jié)果差油,粘貼保存到同一個(gè)文件里
下拉,找到 mRNA and Protein(s) 這一欄蓄喇,對(duì)應(yīng)的是蛋白質(zhì)登陸號(hào)发侵。
那么在詳情頁(yè)里獲取到的必要信息有:
- LOC105628049
- JCGZ_05469
- NW_012124111.1
- XP_012064751.1
如果你已經(jīng)用過(guò) MapChart 繪制染色體定位圖,并且已經(jīng)按照染色體長(zhǎng)度排序妆偏,且為每個(gè)登陸號(hào)都綁定了自己重命名的編號(hào),就可以把這些數(shù)據(jù)全部收集到一起钱骂,方便查閱。建議建個(gè)表格见秽,比如:
Number | Rename | Gene Name | Gene ID | ACCESSION | Protein Size(aa) | MW(Da) | PI | Location |
---|---|---|---|---|---|---|---|---|
1 | JcHSP60-1 | LOC105628049 | JCGZ_05469 | XP_012064751.1 | 574 | 61145.43 | 5.84 | LG1 |
3. 整理數(shù)據(jù)
批量下載的 CDS sequence (FASTA) 文件大致如下愉烙,其中每個(gè) CDS sequence 都包含了 類(lèi)似XP_012080304.1
這樣的蛋白質(zhì)登陸號(hào)。
>lcl|XM_012224914.2_cds_XP_012080304.1_1 [gene=LOC105640534] [db_xref=GeneID:105640534] [protein=T-complex protein 1 subunit delta] [protein_id=XP_012080304.1] [location=209..1813] [gbkey=CDS]
序列
>lcl|XM_012209361.2_cds_XP_012064751.1_1 [gene=LOC105628049] [db_xref=GeneID:105628049] [protein=ruBisCO large subunit-binding protein subunit alpha] [protein_id=XP_012064751.1] [location=436..2196] [gbkey=CDS]
序列
整理的 Genomic sequence (FASTA) 文件大致如下解取,其中每個(gè) Genomic sequence 都包含了類(lèi)似 NW_012124182.1
這樣的 DNA 登陸號(hào)。
>NW_012124182.1:c1896425-1890276 Jatropha curcas cultivar GZQX0401 unplaced genomic scaffold, JatCur_1.0 scaffold84, whole genome shotgun sequence
序列
>NW_012125068.1:c2591815-2589868 Jatropha curcas cultivar GZQX0401 unplaced genomic scaffold, JatCur_1.0 scaffold779, whole genome shotgun sequence
序列
而在上一步里蔓肯,我們已經(jīng)整理了大量數(shù)據(jù),把 CDS sequence (FASTA) 文件和Genomic sequence (FASTA) 文件全部重命名一遍省核,每個(gè)數(shù)據(jù)都要一一對(duì)應(yīng)昆码。
最后應(yīng)該是這樣:
CDS sequence (FASTA) 文件
>JcHSP60-1
ATGGCAGCACCGGCAGTCTCCCAGCCTAGATCCTCCAAGACCGAGTCTTATGTTGACAATAAACGCAAGG
AGGATATCCGCCACGCTAATATAGTTGCCGCC以下省略
Genomic sequence (FASTA) 文件
>JcHSP60-1
GGGTAAAACAATTTCCAGTAACTAAACCTTGTCCAAAGCTAAAACCCTACCAAAAGCCCTCGCTTCTGAT
TCTGAATTGCAAACAGAAAAACAGCAGAAAA以下省略
結(jié)果
保存之后上傳邻储,默認(rèn)參數(shù)不變,結(jié)果如圖吨娜,僅供參考。