細(xì)菌基因組的組裝

一擅这、獲取SRA號

登錄Genome Announcements網(wǎng)站(https://mra.asm.org/)持偏,搜索關(guān)鍵詞“bacteria genome SRA”墅垮,在搜索到的細(xì)菌基因組文章中選擇一篇可免,找到文章記載的SRA號。

以下面文章中的SRR號 SRR6466501 為例:


SRR6466501.JPG

二龙优、下載SRA文件

SRA (Sequence ReadArchive)數(shù)據(jù)庫羊异,是用于存儲二代測序的原始數(shù)據(jù),包括454, Illumina, SOLiD, lonTorrent, Helicos 和CompleteGenomics。除了原始序列數(shù)據(jù)外球化,SRA現(xiàn)在也存在raw reads在參考基因的比對信息秽晚。
根據(jù)SRA數(shù)據(jù)產(chǎn)生的特點,將SRA數(shù)據(jù)分為四類:Studies-- 研究課題筒愚、Experiments-- 實驗設(shè)計赴蝇、Runs-- 測序結(jié)果集、Samples-- 樣品信息巢掺。
SRA文件句伶,SRA數(shù)據(jù)庫用不同的前級加以區(qū)分:
●ERP或SRP表示Sudics;
●SRS表示Samplo;
●SRX表示Hxpcritmcrnt;
●SRR表示Runs;

從SRA數(shù)據(jù)庫上用prefetch下載sra文件,輸入命令如下:

prefetch SRR6466501    #下載

結(jié)果如下:

軟件自動建立~/ncbi/public/sra文件夾陆淀,查看:

三考余、 Fastq-dump解壓

cd ~/ncbi/public/sra    #進(jìn)入到sra文件夾下
fastq-dump --gzip --split-files SRR6466501.sra    #解壓

結(jié)果如下:

四、Fastqc質(zhì)控

*準(zhǔn)備:Fastqc安裝轧苫,可參考我的簡書http://www.reibang.com/p/e0659f09288c

使用以下命令進(jìn)行質(zhì)控:

fastqc SRR6466501_1.fastq.gz
fastqc SRR6466501_2.fastq.gz

結(jié)果:


FastQC報告
打開:SRR6466501_1_fastqc.html
SRR6466501_2_fastqc.html


五楚堤、Trimmomatic去接頭

切除接頭序列和低質(zhì)量堿基,此處使用數(shù)據(jù)過濾軟件Trimmomatic含懊。

Trimmomatic 是一個廣受歡迎的Ilumina平臺數(shù)據(jù)過濾工具身冬。
處理數(shù)據(jù)速度快,主要用來去除Illumina 平臺的Fastq序列中的接頭岔乔,并根據(jù)堿基質(zhì)量值對Fastq進(jìn)行修剪酥筝。
支持多線程,有兩種過濾模式雏门,分別對應(yīng)SE和PE測序數(shù)據(jù)嘿歌。
用法:
單末端測序模式
在SE模式下,只有一個輸入文件和一個過濾后的輸出文件
java -jar [Trimmomatic所在的絕對路徑] SE-phred33 [輸入文件] [輸出文件] [動作1] [動作2]......
雙末端測序模式
在PE模式下茁影,有兩個輸入文件,正向測序序列和反向測序序列宙帝,過濾之后,輸出文件有四個兩端序列都保留的為paried -端序列過濾后被遺棄另- -端保留為unparied
java jar [Trimmomatic的絕對路徑] PE -phred33
第一個輸入文件(forward端)正向端
第二個輸入文件(reverse端)反向端
輸出文件[forward_ paried forward_unpaired reverse_ paired reverse_ _unpaired ] [動作1] [動作2]......
另外也支持phred-33和phred-64格式互相轉(zhuǎn)化募闲,不過現(xiàn)在絕大部分Illumina平臺的產(chǎn)出數(shù)據(jù)都轉(zhuǎn)為使用phred-33格式了茄唐。

*準(zhǔn)備:Trimmomatic安裝:

unzip Trimmomatic-0.38.zip
cd Trimmomatic-0.38         
java -jar trimmomatic-0.38.jar

Trimmomatic過濾命令如下:

java -jar /home/gxx/Trimmomatic-0.38/trimmomatic-0.38.jar PE -phred33 SRR6466501_1.fastq.gz SRR6466501_2.fastq.gz ./output_forward_paired.fq.gz ./output_forward_unpaired.fq.gz ./output_reverse_paired.fq.gz ./output_reverse_unpaired.fq.gz ILLUMINACLIP:/home/gxx/Trimmomatic-0.38/adapters/TruSeq2-PE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:20 TRAILING:20 MINLEN:75

結(jié)果如下:

動作說明
ILLUMINACLIP:
過濾reads中的Illumina測序街頭和引|物序列并決定是否去除反向互補(bǔ)的R1/R2中的R2
參數(shù)說明( PE測序要注意最后-一個參數(shù), SE最后兩個參數(shù)不用設(shè)置,參數(shù)之間用冒號連接):
<接頭和引物序列所在位置( Trimmomatic自帶在adapters里面,其中TruSeq2為2代測序, TruSeq3為三代測序)> :
<seed搜索允許多少個個堿基錯配)>:<alindrome比對分值閾值為多少>:<simple clip比對分值閾值為多少>:
<palindrome模式允許切除的最短接頭序列為多少默認(rèn)為8bp>:
<palindrome模式去除與R1完全反向的R2>
SLIDINGWINDOW:
從reads的5'端開始,進(jìn)行滑窗質(zhì)量過濾,切掉堿基質(zhì)量平均值低于閾值的滑窗
參數(shù)說明: <窗口大小>: <堿基平均質(zhì)量值閾值>
MAXINFO:
一個自動調(diào)整的過濾選項,在保證reads長度的情況下盡量降低測序錯誤率,最大化reads的使用價值
LEADING:
從reads的開頭切除質(zhì)量低于閾值的堿基
TRAILING:
從reads的末尾切除質(zhì)量低于閾值的堿基
CROP:
從reads的末尾切掉部分堿基是reads達(dá)到指定長度
HEADCROP:
從reads的開頭切掉指定數(shù)量的堿基
MINLEN:
如果經(jīng)過剪切后reads的長度低于閾值則丟棄這條reads
AVGQUAL:
如果reads的平均堿基質(zhì)量值低于閾值則丟棄這條reads
TOPHRED33:
將reads的堿基質(zhì)量值體系轉(zhuǎn)為phred-33
TOPHRED64:
將reads的堿基質(zhì)量值體系轉(zhuǎn)化為phred-64

六蝇更、SPAdes組裝基因組草圖

SPAdes:
?由俄羅斯科學(xué)院圣彼得堡理工大學(xué)計算生物學(xué)實驗室開發(fā),是目前評價最好的拼接工具之一呼盆。
?主要用于基因組拼接年扩,也可用于一、二访圃、三代測序的混合組裝;還可用于轉(zhuǎn)錄組從頭組裝(rnaSPAdes)和宏基因組拼接(metaSPAdes) 厨幻。

*準(zhǔn)備:SPAdes的安裝
python環(huán)境下,安裝命令如下:

wget http://cab.spbu.ru/files/release3.12.0/SPAdes-3.12.0-Linux.tar.gz
mkdir ~/Biosofts/spades
tar zvxf /home/gxx/SPAdes-3.12.0-Linux.tar.gz -C ~/Biosofts/spades/
~/Biosofts/spades/SPAdes-3.12.0-Linux/bin/spades.py -h
echo 'export PATH=~/Biosofts/spades/SPAdes-3.12.0-Linux/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
spades.py -h

SPAdes運行:

spades.py --careful --pe1-1 SRR6466501_1.fastq.gz --pe1-2 SRR6466501_2.fastq.gz -o ./SPAdesout_SRR6466501new

遇到錯誤:out of memory,內(nèi)存不足况脆。

解決:將虛擬機(jī)設(shè)置中的系統(tǒng)內(nèi)存調(diào)至合理范圍內(nèi)最大饭宾,再次嘗試以上命令,但最終還是不行格了。看铆。

嘗試使用seqtk抽取1000條,命令如下:

#解壓
gunzip -c output_forward_paired.fq.gz >output_forward_paired.fq
gunzip -c output_reverse_paired.fq.gz >output_reverse_paired.fq
#抽取1000條
seqtk sample -s 60 output_forward_paired.fq 1000 >seqtksample1_1000.fq
seqtk sample -s 60 output_reverse_paired.fq 1000 >seqtksample2_1000.fq
#用wc查看盛末,可對比前后文件弹惦,判斷是否抽取成功
wc -l output_forward_paired.fq
wc -l seqtksample1_1000.fq

然后,再次嘗試SPAdes運行:

spades.py --careful --pe1-1 seqtksample1_1000.fq --pe1-2 seqtksample2_1000.fq -o ./SPAdesout_SRR6466501_1000new

結(jié)果如下:

七悄但、Quast評價組裝的基因組效果

*準(zhǔn)備:Quast的安裝棠隐,安裝命令如下

tar zvxf quast-5.0.0.tar.gz -C ~/Biosofts/
~/Biosofts/quast-5.0.0
python quast.py -h

運行代碼:

quast.py ~/ncbi/public/sra/SPAdesout_SRR6466501_1000new/contigs.fasta -o ~/ncbi/public/sra/SPAdesout_SRR6466501_1000new/quast_out

結(jié)果如下:

查看輸出的文件夾quast_out:

本地下載quast報告 report.html,并查看:

完成i芟V蟆!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末嚎京,一起剝皮案震驚了整個濱河市嗡贺,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌挖藏,老刑警劉巖暑刃,帶你破解...
    沈念sama閱讀 207,113評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異膜眠,居然都是意外死亡岩臣,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評論 2 381
  • 文/潘曉璐 我一進(jìn)店門宵膨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來架谎,“玉大人,你說我怎么就攤上這事辟躏」瓤郏” “怎么了?”我有些...
    開封第一講書人閱讀 153,340評論 0 344
  • 文/不壞的土叔 我叫張陵捎琐,是天一觀的道長会涎。 經(jīng)常有香客問我,道長瑞凑,這世上最難降的妖魔是什么末秃? 我笑而不...
    開封第一講書人閱讀 55,449評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮籽御,結(jié)果婚禮上练慕,老公的妹妹穿的比我還像新娘惰匙。我一直安慰自己,他們只是感情好铃将,可當(dāng)我...
    茶點故事閱讀 64,445評論 5 374
  • 文/花漫 我一把揭開白布项鬼。 她就那樣靜靜地躺著,像睡著了一般劲阎。 火紅的嫁衣襯著肌膚如雪绘盟。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,166評論 1 284
  • 那天哪工,我揣著相機(jī)與錄音奥此,去河邊找鬼。 笑死雁比,一個胖子當(dāng)著我的面吹牛稚虎,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播偎捎,決...
    沈念sama閱讀 38,442評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼蠢终,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了茴她?” 一聲冷哼從身側(cè)響起寻拂,我...
    開封第一講書人閱讀 37,105評論 0 261
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎丈牢,沒想到半個月后祭钉,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,601評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡己沛,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,066評論 2 325
  • 正文 我和宋清朗相戀三年慌核,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片申尼。...
    茶點故事閱讀 38,161評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡垮卓,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出师幕,到底是詐尸還是另有隱情粟按,我是刑警寧澤,帶...
    沈念sama閱讀 33,792評論 4 323
  • 正文 年R本政府宣布霹粥,位于F島的核電站灭将,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏后控。R本人自食惡果不足惜宗侦,卻給世界環(huán)境...
    茶點故事閱讀 39,351評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望忆蚀。 院中可真熱鬧矾利,春花似錦、人聲如沸馋袜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽欣鳖。三九已至察皇,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間泽台,已是汗流浹背什荣。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留怀酷,地道東北人稻爬。 一個月前我還...
    沈念sama閱讀 45,618評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像蜕依,于是被迫代替她去往敵國和親桅锄。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,916評論 2 344

推薦閱讀更多精彩內(nèi)容