轉(zhuǎn)錄組入門(4):了解參考基因組及基因注釋

轉(zhuǎn)錄組入門(4):了解參考基因組及基因注釋
在UCSC下載hg19參考基因組堕油,我博客有詳細(xì)說明拘鞋,從gencode數(shù)據(jù)庫下載基因注釋文件烛亦,并且用IGV去查看你感興趣的基因的結(jié)構(gòu)铃剔,比如TP53,KRAS,EGFR等等。
作業(yè)析恢,截圖幾個(gè)基因的IGV可視化結(jié)構(gòu)墨坚!還可以下載ENSEMBL,NCBI的gtf映挂,也導(dǎo)入IGV看看泽篮,截圖基因結(jié)構(gòu)。了解IGV常識(shí)

準(zhǔn)備工作

參考基因組

測(cè)序得到的是幾百bp的短read柑船, 相當(dāng)于把拼圖打散了給你帽撑。如果沒有參考基因組,從頭(de novo)組裝等于是重走人類基因組計(jì)劃的老路鞍时,也就是打散了拼圖亏拉,卻不告訴你原來是什么樣子扣蜻,那么任務(wù)將會(huì)及其艱巨。
還好人類基因組已經(jīng)組裝好了及塘,我們只需要把我們測(cè)得序列回貼(mapping)回去莽使,畢竟人與人之間的差距只有不到1%差異, 允許mismatch就行。

因此第一步就是要去UCSC(http://genome.ucsc.edu/index.html)下載hg19參考基因組(文獻(xiàn)要求)

UCSC網(wǎng)站
數(shù)據(jù)存放站點(diǎn)
hg19
基因組文件

不同文件的所包含的數(shù)據(jù)在該頁面有介紹磷蛹,其中

chromFa.tar.gz - The assembly sequence in one file per chromosome.Repeats from RepeatMasker and Tandem Repeats Finder (with period of 12 or less) are shown in lower case; non-repeating sequence is shown in upper case.

我將數(shù)據(jù)存放在Windows的F盤的Data文件夾下吮旅,用于后續(xù)操作

cd /mnt/f/Data
mkdir reference && cd reference
mkdir -p genome/hg19 && cd genome/hg19
nohup wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
tar -zvf chromFa.tar.gz
cat *.fa > hg19.fa
rm chr*

下面的內(nèi)容是Jimmy在【直播】我的基因組(五):測(cè)試數(shù)據(jù)及參考基因組的準(zhǔn)備關(guān)于參考基因組的介紹

這個(gè)對(duì)新手來說,是一個(gè)很大的坑味咳,hg19庇勃、GRCH37、 ensembl 75這3種基因組版本應(yīng)該是大家見得比較多的了槽驶,國(guó)際通用的人類參考基因組责嚷,其實(shí)他們儲(chǔ)存的是同樣的fasta序列,只是分別對(duì)應(yīng)著三種國(guó)際生物信息學(xué)數(shù)據(jù)庫資源收集存儲(chǔ)單位掂铐,即NCBI罕拂,UCSC及ENSEMBL各自發(fā)布的基因組信息而已。有一些參考基因組比較小眾全陨,存儲(chǔ)的序列也不一樣爆班,比如BGI做的炎黃基因組,還有DNA雙螺旋結(jié)構(gòu)提出者沃森(Watson)的基因組辱姨,還有2016年發(fā)表在nature上面的號(hào)稱最完善的韓國(guó)人做的基因組柿菩。前期我們先不考慮這些小眾基因組,主要就下載hg19和hg38雨涛,都是UCSC提供的枢舶,雖然hg38相比hg19來說,做了很多改進(jìn)替久,優(yōu)點(diǎn)也不少凉泄,但因?yàn)槟壳盀橹购芏嘧⑨屝畔⒍际轻槍?duì)于hg19的坐標(biāo)系統(tǒng)來的,我們就都下載了蚯根,正好自己探究一下后众。也順便下載一個(gè)小鼠的最新版參考基因組吧,反正比對(duì)也就是睡個(gè)覺的功夫颅拦,順便分析一下結(jié)果吼具,看看比對(duì)率是不是很低。

吐槽: Jimmy大神的博客排版真的是非尘鼐啵考驗(yàn)我們對(duì)知識(shí)的渴望,每當(dāng)看到他的排版的時(shí)候怖竭,我必須得忍住不去點(diǎn)擊瀏覽器右上角锥债。為了求知,我忍了。

注釋信息

然而參考基因組是一部無字天書哮肚,要想解讀書中的內(nèi)容登夫,需要額外的注釋信息協(xié)助。
因此第二步允趟,就是去gencode數(shù)據(jù)庫(http://www.gencodegenes.org/)下載基因組注釋文件恼策。

Gencode

看了下面這個(gè)圖,我才明白Jimmy為什么會(huì)吐槽基因組各種版本對(duì)應(yīng)關(guān)系了潮剪。

版本對(duì)應(yīng)

又到了GTF還是GFF3的抉擇時(shí)刻涣楷,簡(jiǎn)單介紹了一下他們的格式

GTF/GFF3

GTF(General Transfer Format)其實(shí)就是GFF2,以Tab分割抗碰,分為如下幾列

  1. seqname - name of the chromosome or scaffold; chromosome names can be given with or without the 'chr' prefix. Important note: the seqname must be one used within Ensembl, i.e. a standard chromosome name or an Ensembl identifier such as a scaffold ID, without any additional content such as species or assembly. See the example GFF output below.
  2. source - name of the program that generated this feature, or the data source (database or project name)
  3. feature - feature type name, e.g. Gene, Variation, Similarity
  4. start - Start position of the feature, with sequence numbering starting at 1.
  5. end - End position of the feature, with sequence numbering starting at 1.
  6. score - A floating point value.
  7. strand - defined as + (forward) or - (reverse).
  8. frame - One of '0', '1' or '2'. '0' indicates that the first base of the feature is the first base of a codon, '1' that the second base is the first base of a codon, and so on..
  9. attribute - A semicolon-separated list of tag-value pairs, providing additional information about each feature.

而GFF3(General Feature Format)的格式如下

  1. seqid - name of the chromosome or scaffold; chromosome names can be given with or without the 'chr' prefix. Important note: the seq ID must be one used within Ensembl, i.e. a standard chromosome name or an Ensembl identifier such as a scaffold ID, without any additional content such as species or assembly. See the example GFF output below.
  2. source - name of the program that generated this feature, or the data source (database or project name)
  3. type - type of feature. Must be a term or accession from the SOFA sequence ontology
  4. start - Start position of the feature, with sequence numbering starting at 1.
  5. end - End position of the feature, with sequence numbering starting at 1.
  6. score - A floating point value.
  7. strand - defined as + (forward) or - (reverse).
  8. phase - One of '0', '1' or '2'. '0' indicates that the first base of the feature is the first base of a codon, '1' that the second base is the first base of a codon, and so on..
  9. attributes - A semicolon-separated list of tag-value pairs, providing additional information about each feature. Some of these tags are predefined, e.g. ID, Name, Alias, Parent - see the GFF documentation for more details.

看不出來有啥區(qū)別狮斗,不想糾結(jié)就全下載好了。

nohup wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gtf.gz &
nohuop wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gff3.gz &

我們對(duì)文字的理解能力遠(yuǎn)遠(yuǎn)小于圖片弧蝇,所以下一步需要下載基因組瀏覽器

IGV碳褒, Integrative Genomics Viewer

下載地址為: http://software.broadinstitute.org/software/igv/download
Windows下載如下版本, 會(huì)自帶一個(gè)java運(yùn)行環(huán)境

download

雙擊igv.bat看疗, 就會(huì)出現(xiàn)運(yùn)行界面沙峻。

雙擊666

通過genome -> Load Genome From Files加載之前得到基因組文件。

loading data

進(jìn)一步两芳,還需要加載gff基因注釋文件摔寨,F(xiàn)ile -> Load From Files

gff

顯示未排序出錯(cuò),可以使用Tool -> Run igvtools盗扇,進(jìn)行排序祷肯。

igvtools
sort

之后就可以重新加載排序后的gtf文件進(jìn)行操作。生信寶典寫過一篇文章介紹測(cè)序數(shù)據(jù)可視化(http://mp.weixin.qq.com/s/Q7pqycmQH58xU6hw_LECWA) 我也在看文檔摸索中疗隶,先放上基因截圖

gene演示

下面這張圖是來自于幾個(gè)月前Jimmy對(duì)高通量測(cè)序的理解佑笋,提供數(shù)據(jù)的截圖

高通量測(cè)序的異同
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市斑鼻,隨后出現(xiàn)的幾起案子蒋纬,更是在濱河造成了極大的恐慌,老刑警劉巖坚弱,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蜀备,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡荒叶,警方通過查閱死者的電腦和手機(jī)碾阁,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來些楣,“玉大人脂凶,你說我怎么就攤上這事宪睹。” “怎么了蚕钦?”我有些...
    開封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵亭病,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我嘶居,道長(zhǎng)罪帖,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任邮屁,我火速辦了婚禮整袁,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘樱报。我一直安慰自己葬项,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開白布迹蛤。 她就那樣靜靜地躺著民珍,像睡著了一般。 火紅的嫁衣襯著肌膚如雪盗飒。 梳的紋絲不亂的頭發(fā)上嚷量,一...
    開封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天,我揣著相機(jī)與錄音逆趣,去河邊找鬼蝶溶。 笑死,一個(gè)胖子當(dāng)著我的面吹牛宣渗,可吹牛的內(nèi)容都是我干的抖所。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼痕囱,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼田轧!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起鞍恢,我...
    開封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤傻粘,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后帮掉,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體弦悉,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年蟆炊,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了稽莉。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡涩搓,死狀恐怖污秆,靈堂內(nèi)的尸體忽然破棺而出后室,到底是詐尸還是另有隱情,我是刑警寧澤混狠,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站疾层,受9級(jí)特大地震影響将饺,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜痛黎,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一予弧、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧湖饱,春花似錦掖蛤、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至仅仆,卻和暖如春器赞,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背墓拜。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來泰國(guó)打工港柜, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人咳榜。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓夏醉,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親涌韩。 傳聞我的和親對(duì)象是個(gè)殘疾皇子畔柔,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容