STEP3:了解參考基因組及注釋文件

下載原始測序數(shù)據(jù):

在GEO數(shù)據(jù)庫搜索GSE87182, 這里沒有直接給出ftp地址恼琼,需要先從BioProject找到SRA號孔祸,可以得到RNA-Seq的SRA的accession_list,共64組數(shù)據(jù)(SRA數(shù)據(jù)下載方法參考:https://www.ncbi.nlm.nih.gov/books/NBK158899/)驯耻。


得到SRA號就可以從NCBI的SRA或者EBI的ENA批量下載原始數(shù)據(jù)了亲族,NCBI下載的原始數(shù)據(jù)是sra格式,需要用SRA Toolkit軟件包轉化為fastq數(shù)據(jù)格式吓歇,EBI下載的數(shù)據(jù)直接是fastq格式孽水。

這里要注意SRR號并不是連續(xù)的票腰,好像有人已經(jīng)踩過這個坑了城看,我還是掉進去了,下了一個晚上的數(shù)據(jù)白瞎了杏慰。重新下載测柠,這次只選擇下載CC,OC兩個腦區(qū)域的數(shù)據(jù),剛好這兩組數(shù)據(jù)的測序平臺也一致缘滥。

#NCBI下載
for ((i=230;i<=237;i++));do wget ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR404/SRR4042$i/SRR4042$i.sra;done
for ((i=393;i<=400;i++));do wget ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR401/SRR4015$i/SRR4015$i.sra;done

##SRR4015393和SRR4015394測序質量不好轰胁,最好不要下載這兩組數(shù)據(jù)練習。

#EBI下載
for ((i=230;i<=237;i++));do wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR404/000/SRR4042$i/SRR4042$i\_1.fastq.gz;done
for ((i=230;i<=237;i++));do wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR404/000/SRR4042$i/SRR4042$i\_2.fastq.gz;done

另外若覺得wget下載速度慢朝扼,可以選擇其他下載方法(SRA赃阀、SAM以及Fastq文件高速下載方法):

  • 首選Aspera Connect軟件,這是IBM旗下的商業(yè)高速文件傳輸軟件擎颖,與NCBI和EBI有協(xié)作合同榛斯,我們可以免費使用它下載高通量測序文件观游,體驗飛一般的感覺,速度可飚至300-500M/s驮俗。下載完成后懂缕,本地用fastq-dump提取fastq文件,用sam-dump提取SAM文件王凑。
  • 其次搪柑,如果上述方法不奏效,優(yōu)先使用sratoolkit中的prefetch命令索烹。
  • 最后工碾,使用sratoolkit中的fastq-dumpsam-dump命令下載,如果fastq-dump不穩(wěn)定百姓,推薦大家嘗試Biostar Handbook中的wonderdump腳本倚喂。

SRA數(shù)據(jù)庫介紹
SRA(Sequence ReadArchive)數(shù)據(jù)庫是存儲二代測序的原始數(shù)據(jù)。

根據(jù)SRA數(shù)據(jù)產生的特點瓣戚,將SRA數(shù)據(jù)分為四類:
Studies-- 研究課題
Experiments-- 實驗設計
Runs-- 測序結果集
Samples-- 樣品信息
SRA中數(shù)據(jù)結構的層次關系為:Studies->Experiments->Samples->Runs.
Studies是就實驗目標而言的端圈,一個study 可能包含多個Experiment。
Experiments包含了Sample子库、DNA source舱权、測序平臺、數(shù)據(jù)處理等信息仑嗅。
一個Experiment可能包含一個或多個runs宴倍。
Runs 表示測序儀運行所產生的reads。
SRA數(shù)據(jù)庫用不同的前綴加以區(qū)分:
ERP或SRP表示Studies仓技;
SRS 表示 Samples鸵贬;
SRX 表示 Experiments;
SRR 表示 Runs脖捻;


下載基因組數(shù)據(jù):

基因組數(shù)據(jù):ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/dna/
Ensemble基因組數(shù)據(jù)的形式包含以下2種:
(1)masked/unmasked
dna_sm- Repeats soft-masked (converts repeat nucleotidesto lowercase)
dna_rm- Repeats masked (converts repeats to to N's)
dna- No masking
(2) toplevel / primary assembly
toplevel- Includes haplotype information (notsure how aligners deal with this)
primary_assembly– contains all toplevel sequenceregions excluding haplotypes and patches. This is best used for performingsequence similarity searches where patch and haplotype sequences would confuseanalysis.

根據(jù)README中的介紹阔逼,primary_assembly 和 toplevel相比不包含haplotype, 更適合用于比對,對于mask/un mask 通常選擇softmask或者unmasked, 一般不用rm的地沮。這個有一個討論嗜浮,幾個人的回答并不一致,我還是模模糊糊摩疑,并不很明白危融。

macaca的基因組版本沒有給出primary_assembly, 所以我下載了sm.toplevel和toplevel, 有時間去比較下會對下游分析有什么影響。

wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/dna/Macaca_mulatta.Mmul_8.0.1.dna_sm.toplevel.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/cdna/Macaca_mulatta.Mmul_8.0.1.cdna.all.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/ncrna/Macaca_mulatta.Mmul_8.0.1.ncrna.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/cds/Macaca_mulatta.Mmul_8.0.1.cds.all.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/dna/Macaca_mulatta.Mmul_8.0.1.dna.toplevel.fa.gz

下載注釋數(shù)據(jù):

注釋數(shù)據(jù):https://asia.ensembl.org/info/data/ftp/index.html

wget ftp://ftp.ensembl.org/pub/release-91/gtf/macaca_mulatta/Macaca_mulatta.Mmul_8.0.1.91.gtf.gz
wget ftp://ftp.ensembl.org/pub/release-91/gff3/macaca_mulatta/Macaca_mulatta.Mmul_8.0.1.91.gff3.gz

參考資料:

SRA數(shù)據(jù)下載方法參考:https://www.ncbi.nlm.nih.gov/books/NBK158899/
SRA雷袋、SAM以及Fastq文件高速下載方法: http://bioinfostar.com/2017/12/23/How-to-download-SRA-data-zh_CN/
SRA數(shù)據(jù)庫介紹:https://www.shengxin.ren/article/16

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末吉殃,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌蛋勺,老刑警劉巖速侈,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異迫卢,居然都是意外死亡倚搬,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門乾蛤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來每界,“玉大人,你說我怎么就攤上這事家卖≌2悖” “怎么了?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵上荡,是天一觀的道長趴樱。 經(jīng)常有香客問我,道長酪捡,這世上最難降的妖魔是什么叁征? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮逛薇,結果婚禮上捺疼,老公的妹妹穿的比我還像新娘。我一直安慰自己永罚,他們只是感情好啤呼,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著呢袱,像睡著了一般官扣。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上羞福,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天惕蹄,我揣著相機與錄音,去河邊找鬼坯临。 笑死焊唬,一個胖子當著我的面吹牛,可吹牛的內容都是我干的看靠。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼液肌,長吁一口氣:“原來是場噩夢啊……” “哼挟炬!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤谤祖,失蹤者是張志新(化名)和其女友劉穎婿滓,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體粥喜,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡凸主,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了额湘。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片卿吐。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖锋华,靈堂內的尸體忽然破棺而出嗡官,到底是詐尸還是另有隱情,我是刑警寧澤毯焕,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布衍腥,位于F島的核電站,受9級特大地震影響纳猫,放射性物質發(fā)生泄漏婆咸。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一芜辕、第九天 我趴在偏房一處隱蔽的房頂上張望擅耽。 院中可真熱鬧,春花似錦物遇、人聲如沸乖仇。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽乃沙。三九已至,卻和暖如春诗舰,著一層夾襖步出監(jiān)牢的瞬間警儒,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工眶根, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留蜀铲,地道東北人。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓属百,卻偏偏與公主長得像记劝,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子族扰,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內容