基因組組裝(全)

  • 基因組組裝一般分為三個層次,contig, scaffold和chromosomes.

contig表示從大規(guī)模測序得到的短讀(reads)中找到的一致性序列倾剿。組裝的第一步就是從短片段(pair-end)文庫中組裝出contig蚂会。進一步基于不同長度的大片段(mate-pair)文庫蚤霞,將原本孤立的contig按序前后連接东且,這一步會得到scaffolds埃跷。最后基于遺傳圖譜或光學圖譜將scaffold合并調(diào)整,形成染色體級別的組裝(chromosome)

一. 下載短序列

  • 首先到Microbiology Resource Annocements(https://mra.asm.org)上找到需要下載reads的SRA號心赶,比如我們找到兩篇文章中的SRA號扣讼,分別為 SRR020180 和 SRR028694

  • prefetch下載序列:下載的SRA文件默認保存在/ncbi/public/sra中

prefetch SRR020180
prefetch  SRR028694

結(jié)果


1.PNG

5.PNG

6.PNG
  • fasterq -dump解壓sra文件,將sra文件轉(zhuǎn)化為fastq文件
    也可以用fastq -dump命令缨叫,但相對于fasterq -dump椭符,fastq -dump的速度太慢了

--split-spot: 將雙端測序分為兩份,但是都放在同一個文件中
--split-files: 將雙端測序分為兩份,放在不同的文件,但是對于一方有而一方?jīng)]有的reads直接丟棄
--split-3 : 將雙端測序分為兩份,放在不同的文件,但是對于一方有而一方?jīng)]有的reads會單獨放在一個文件夾里

fastq-dump --gzip --split-3 SRR020180.sra
fastq-dump --gzip --split-3 SRR028694.sra

結(jié)果:看到兩個SRA文件都分別只生成了一個文件,所以兩個SRA文件都是單端測序的結(jié)果


1.PNG
2.PNG

二. Fastqc質(zhì)控

FastQC可以快速地對測序數(shù)據(jù)進行質(zhì)量評估

  • 輸入fastqc -h可以查看fastqc的基本使用參數(shù)


    10.PNG

-o --outdir 生成的報告文件的存儲路徑
--(no)extract 是否將生成的報告打包成一個壓縮文件
--c contaminant file 污染序列選項
-t --threads 選擇程序運行的線程數(shù)
-q --quiet 安靜運行模式耻姥,不設(shè)置這個參數(shù)時艰山,程序?qū)崟r報告運行狀況

  • 對fastq文件進行質(zhì)控檢驗
fastqc SRR020180.fastq.gz
fastqc SRR028694.fastq.gz

結(jié)果


11.PNG

紅色:數(shù)據(jù)質(zhì)量很差
黃色:數(shù)據(jù)質(zhì)量一般
綠色:數(shù)據(jù)質(zhì)量很好

SRR020180:


12.PNG

SRR028694:


13.PNG

可以看到第二條序列的質(zhì)量很差,我們接下來需要進行數(shù)據(jù)的過濾

三. Trimmomatic數(shù)據(jù)過濾

Trimmomatic 支持多線程咏闪,處理數(shù)據(jù)速度快,主要用來去除 Illumina 平臺的 Fastq 序列中的接頭摔吏,并根據(jù)堿基質(zhì)量值對 Fastq 進行修剪鸽嫂。

  • 運行命令行查看Trimmomatic的使用方法
java -jar ~/Trimmomatic-0.38/trimmomatic-0.38.jar
3.PNG

Trimmomatic有兩種過濾模式,分別對應 SE 和 PE 測序數(shù)據(jù)征讲。SE指單末端測序模式据某,過濾單端測序產(chǎn)生的數(shù)據(jù),PE指雙末端測序模式诗箍,過濾雙端測序產(chǎn)生的數(shù)據(jù)癣籽。

之前在fast-dump解壓后兩個SAR文件都分別只有一個輸出文件,所以2個序列都為單端測序產(chǎn)生的序列滤祖,所以我們這里選擇SE模式筷狼。

 java -jar ~/Trimmomatic-0.38/trimmomatic-0.38.jar SE -phred33 SRR020180.fastq.gz SRR020180_clean.fastq.gz ILLUMINACLIP:/Trimmomatic-0.38/adaptersTruSeq3-SE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:50
java -jar ~/Trimmomatic-0.38/trimmomatic-0.38.jar SE -phred33 SRR028694.fastq.gz SRR028694_clean.fastq.gz ILLUMINACLIP:/Trimmomatic-0.38/adaptersTruSeq3-SE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:50

參數(shù):
—— phred33:指質(zhì)量值體系為phred33,還有phred64匠童,如果不設(shè)置默認為phred64埂材,但因為現(xiàn)在基本都用phred33的了,所以這里一定要設(shè)置

—— SRR020180.fastq.gz:輸入文件
—— SRR020180_clean.fastq.gz:輸出文件

—— ILLUMINACLIP:過濾 reads 中的 Illumina 測序接頭和引物序列汤求。TruSeq3-PE.fa是接頭序列俏险,2是比對時接頭序列時所允許的最大錯配數(shù);30指的是要求PE的兩條read同時和PE的adapter序列比對扬绪,匹配度加起來超30%竖独,那么就認為這對PE的read含有adapter,并在對應的位置需要進行切除挤牛。
—— SLIDINGWINDOW:滑動窗口長度的參數(shù)莹痢,SLIDINGWINDOW:5:20代表窗口長度為5,窗口中的平均質(zhì)量值至少為20,否則會開始切除格二;
—— LEADING:規(guī)定read開頭的堿基是否要被切除的質(zhì)量閾值劈彪;
—— TRAILING:規(guī)定read末尾的堿基是否要被切除的質(zhì)量閾值;
—— MINLEN:規(guī)定read被切除后至少需要保留的長度顶猜,如果低于該長度沧奴,會被丟掉。

  • 數(shù)據(jù)過濾后我們再用Fastqc質(zhì)控长窄,查看過濾后的結(jié)果如何
fastqc SRR020180_clean.fastq.gz
fastqc SRR028694_clean.fastq.gz

結(jié)果:
SRR020180:
數(shù)據(jù)過濾前:

5.PNG

數(shù)據(jù)過濾后:


1.png

SRR028694:
數(shù)據(jù)過濾前:

index.png

數(shù)據(jù)過濾后:
index.png

四. SPAdes短序列拼接

SPAdes 主要用于進行單細胞測序的細菌與基因組拼接滔吠,也能用于非單細胞測序數(shù)據(jù)。現(xiàn)在的SPAdes版本基本都支持paired-end reads,mate pairs和unpairede reads,多個paired-end和mate pairs可以同時輸入挠日。

 spades.py --only-assembler --phred-offset 33 -k 55 --s1 SRR020180_clean.fastq.gz -o ./SPAdes2
 spades.py --only-assembler  --careful --phred-offset 33 -k 33,55,77 --s1 SRR028694_clean.fastq.gz -o ./SPAdes1

  • 參數(shù):
    —— only-error-correction:只做數(shù)據(jù)糾錯
    —— only-assembler:只組裝疮绷,不做數(shù)據(jù)糾錯
    —— careful:減少錯誤和插入缺失,添加此選項嚣潜,會消耗更多的時間

—— phred-offset 33:phred質(zhì)量體系冬骚,在數(shù)據(jù)糾錯中會用到,現(xiàn)在illumina數(shù)據(jù)一般采用phred 33懂算,并且我們之前數(shù)據(jù)過濾時采用的就是phred 33

—— k:k值只冻,一次可以輸入多個,用逗號分隔计技,kmer最大為127喜德,并且注意只能是奇數(shù),不設(shè)置時會自動計算合適的k值垮媒,但運算時間較長

——s1:表明是single reades
——pel:表明是paired-end和mate-pair reades

—— o:輸出目錄

  • 結(jié)果

SRR020180:


6.PNG

SRR028694:


7.PNG

五.Quast評價序列拼接結(jié)果

  • 評價結(jié)果
#評價SRR020180序列結(jié)果
 quast.py ~/ncbi/public/sra/SPAdes2/contigs.fasta
#評價SRR028694序列結(jié)果
 quast.py ~/ncbi/public/sra/SPAdes1/contigs.fasta
  • 結(jié)果
    SRR020180:


    9.PNG

SRR028694:


8.PNG

這個序列文件本來就很小舍悯,經(jīng)過了數(shù)據(jù)過濾,數(shù)據(jù)糾錯等等數(shù)據(jù)優(yōu)化后已經(jīng)沒有剩下可以連接的contig了

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末睡雇,一起剝皮案震驚了整個濱河市萌衬,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌它抱,老刑警劉巖奄薇,帶你破解...
    沈念sama閱讀 217,657評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異抗愁,居然都是意外死亡馁蒂,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,889評論 3 394
  • 文/潘曉璐 我一進店門蜘腌,熙熙樓的掌柜王于貴愁眉苦臉地迎上來恶复,“玉大人踏志,你說我怎么就攤上這事糟港∷觯” “怎么了?”我有些...
    開封第一講書人閱讀 164,057評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長勺届。 經(jīng)常有香客問我驶俊,道長,這世上最難降的妖魔是什么免姿? 我笑而不...
    開封第一講書人閱讀 58,509評論 1 293
  • 正文 為了忘掉前任饼酿,我火速辦了婚禮,結(jié)果婚禮上胚膊,老公的妹妹穿的比我還像新娘故俐。我一直安慰自己,他們只是感情好紊婉,可當我...
    茶點故事閱讀 67,562評論 6 392
  • 文/花漫 我一把揭開白布药版。 她就那樣靜靜地躺著,像睡著了一般喻犁。 火紅的嫁衣襯著肌膚如雪槽片。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,443評論 1 302
  • 那天肢础,我揣著相機與錄音筐乳,去河邊找鬼。 笑死乔妈,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的氓皱。 我是一名探鬼主播路召,決...
    沈念sama閱讀 40,251評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼波材!你這毒婦竟也來了股淡?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,129評論 0 276
  • 序言:老撾萬榮一對情侶失蹤廷区,失蹤者是張志新(化名)和其女友劉穎唯灵,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體隙轻,經(jīng)...
    沈念sama閱讀 45,561評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡埠帕,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,779評論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了玖绿。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片敛瓷。...
    茶點故事閱讀 39,902評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖斑匪,靈堂內(nèi)的尸體忽然破棺而出呐籽,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 35,621評論 5 345
  • 正文 年R本政府宣布狡蝶,位于F島的核電站庶橱,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏贪惹。R本人自食惡果不足惜苏章,卻給世界環(huán)境...
    茶點故事閱讀 41,220評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望馍乙。 院中可真熱鬧布近,春花似錦、人聲如沸丝格。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,838評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽显蝌。三九已至预伺,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間曼尊,已是汗流浹背酬诀。 一陣腳步聲響...
    開封第一講書人閱讀 32,971評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留骆撇,地道東北人瞒御。 一個月前我還...
    沈念sama閱讀 48,025評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像神郊,于是被迫代替她去往敵國和親肴裙。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,843評論 2 354

推薦閱讀更多精彩內(nèi)容