細(xì)菌基因組拼接(一)

2021.3.17
持續(xù)更新中。婆芦。倦西。


?總綱

  • 材料:Illumina雙末端測序原始數(shù)據(jù)(通常是兩個(gè)fastaq的.gz壓縮文件倍宾,文中為:sequence_1.fastq.gz和sequence_2.fastq.gz)
  • 軟件:FastQC、Trimmomatic醇坝、SPAdes邑跪、QUAST(均可通過conda一鍵下載)

1. FastQC —— 質(zhì)量評估

FastQC是一款基于Java的軟件,它可以快速地對測序數(shù)據(jù)進(jìn)行質(zhì)量評估呼猪,并生成網(wǎng)頁版的報(bào)告画畅。

1.1 使用

fastqc <sequence_1.fastq.gz> <sequence_2.fastq.gz> -o <目錄名> -t 線程數(shù)

重要參數(shù)
1. -o:輸出文件目錄(需要提前新建一個(gè)目錄)
2. -t:選擇程序運(yùn)行的線程數(shù)
3. -f:指定輸入文件格式

1.2 輸出文件

每個(gè)原始數(shù)據(jù)文件會生成兩個(gè)文件,一個(gè)為.html網(wǎng)頁文件宋距,一個(gè)為.zip文件轴踱。打開.html可以查看序列的測序質(zhì)量情況,分為三個(gè)等級:合格項(xiàng)為綠色√谚赎,警告是黃色的淫僻!,不合格為紅色的×壶唤。(綠色越多越好)

fastqc質(zhì)量報(bào)告


2. Trimmomatic —— 過濾

Trimmomatic用于illumina二代測序數(shù)據(jù)的reads處理雳灵,主要用于對接頭(adapter)序列和低質(zhì)量序列進(jìn)行過濾。能夠識別fastq的.gz和.bz2文件闸盔。主要有兩種模式:雙端模式(PE)和單端模式(SE)悯辙。

注:二代測序下機(jī)數(shù)據(jù)一般是150bp的序列,這些序列理論上全是自己的目標(biāo)序列蕾殴,但是有可能由于測通而含有接頭序列笑撞。

2.1 使用(一條命令)

trimmomatic PE -phred33  <sequence_1.fastq.gz> <sequence_2.fastq.gz> 
 <目錄/sequence_1_paired.fastq.gz> <目錄/sequence_1_unpaired.fastq.gz> <目錄/sequence_2_paired.fastq.gz> <目錄/sequence_2_unpaired.fastq.gz> 
 ILLUMINACLIP:~/miniconda3/pkgs/trimmomatic-0.39-1/share/trimmomatic/adapters/TruSeq3-PE.fa:2:30:10:1:TRUE
 SLIDINGWINDOW:5:20 LEADING:20 TRAILING:20 MINLEN:75

重要參數(shù)
1. PE:指定為雙末端測序(單端用SE)
2. -phred33將 reads 的堿基質(zhì)量值體系轉(zhuǎn)為 phred-33,也可以設(shè)置為phred-64钓觉。
3. ILLUMINACLIP:過濾 reads 中的 Illumina 測序接頭和引物序列茴肥,并決定是否去除反向互補(bǔ)的 1/2 中的 2。ILLUMINACLIP參數(shù)后面的是.fa文件荡灾,用conda安裝的話一般在miniconda3/pkgs/trimmomatic-0.39-1/share/trimmomatic/adapters/TruSeq3-PE.fa下瓤狐,其中有兩種文件可選:TruSeq3-PE.faTruSeq2-PE.fa瞬铸,TruSeq3-PE.fa適用于Hiseq和Miseq機(jī)器測序,TruSeq2-PE.fa用于GAII機(jī)器測序础锐。(TruSeq和Nextera是DNA建庫常用的試劑盒)
4. SLIDINGWINDOW: 從 reads 的 5' 端開始嗓节,進(jìn)行滑窗質(zhì)量過濾。示例的意思是以5bp為窗口皆警,若這5bp堿基的平均質(zhì)量值低于20拦宣,則要進(jìn)行切除。
5. LEADING:從reads起始開始信姓,去除質(zhì)量低于閾值或?yàn)?N'的堿基鸵隧。
6. TRAILING:從 reads 的末尾開始切除質(zhì)量值低于閾值的堿基。
7. MINLEN:如果經(jīng)過剪切后 reads 的長度低于閾值則丟棄這條 reads意推。

可選參數(shù)
1. AVGQUAL:如果 reads 的平均堿基質(zhì)量值低于閾值則丟棄這條 reads豆瘫。
2. MAXINFO:一個(gè)自動調(diào)整的過濾選項(xiàng),在保證 reads 長度的情況下盡量降低測序錯(cuò)誤率菊值,最大化 reads 的使用價(jià)值外驱。

2.2 輸出文件

一共會輸出四個(gè)文件,其中雙端序列都保留的序列在sequence_1_paired.fastq.gzsequence_2_paired.fastq.gz中可以用于下一步的序列拼接腻窒。只保留一條的序列在sequence_1_unpaired.fastq.gzsequence_2_unpaired.fastq.gz中昵宇。

過濾之后,還需要用fastqc對過濾后的數(shù)據(jù)進(jìn)行質(zhì)控定页,如果不符合要求趟薄,可重新更改參數(shù)進(jìn)行過濾绽诚。


3. SPAdes —— 短序列拼接

SPAdes是常用的序列拼接軟件之一典徊,支持illumina恩够、PacBio卒落、Nanopore、Sanger蜂桶、Ion Torrent等測序數(shù)據(jù)的拼接儡毕,同樣適合用于混合組裝來改善拼接效果。

3.1 使用

spades.py --pe1-1 <sequence_1_paired.fastq.gz> --pe1-2 <sequence_2_paired.fastq.gz> 
 -t 10  -m 100 --careful --phred-offset 33 -o <spades_out>

重要參數(shù):
1. --pe<#>-1:指定輸入文庫扑媚,其中#表示第幾個(gè)文庫腰湾。例如,第一pairend文庫就可以寫成--pe1-1疆股,之后接reads1文件
2. --pe<#>-2:和上面類似费坊,如果是大片段的matepair文庫,就使用--mp1-1等旬痹。
3. -t:線程數(shù)附井,默認(rèn)是16個(gè)讨越。
4. -m:用于內(nèi)存限制。
5. --careful:減少錯(cuò)誤和插入序列永毅,添加此項(xiàng)會消耗更多的時(shí)間把跨。
6. --phred-offset:堿基質(zhì)量體系,在數(shù)據(jù)糾錯(cuò)中會用到沼死,現(xiàn)在illumina數(shù)據(jù)一般采用phred 33着逐。
7. -o:輸出目錄

可選參數(shù):
1. -k:k-mer值列表,數(shù)字必須是小于128的奇數(shù)意蛀。注:若小片段文庫(150bp×2)數(shù)據(jù)量足夠(50×+)滨嘱,則推薦使用-k 21,33,55,77
2. --pacbio:指定pacbio數(shù)據(jù)輸入浸间。
3. --nanopore:指定nanopore數(shù)據(jù)輸入太雨。

3.2 輸出文件

著重關(guān)注文件*scaffolds.fasta*contigs.fasta文件即可。


4. QUAST —— 評價(jià)組裝結(jié)果

4.1 安裝

conda install quast

在用conda安裝了FastQC魁蒜、Trimmomatic囊扳、SPAdes后,環(huán)境中的python版本是3.9兜看,安裝不上QUAST了锥咸,在一個(gè)低版本的python環(huán)境下安裝了QUAST。

4.2 使用

quast.py -o <quast_out>  -R <reference_genome.fa> -t 25 <*scaffolds.fasta> <*scaffolds.fasta>

重要參數(shù):
1. -o:輸出目錄
2. -R:參考基因組序列
3. -t:線程數(shù)

5. 總結(jié)

自己提取基因組送去公司測了以此框架圖细移,回饋的原始數(shù)據(jù)深度達(dá)到了200×+搏予,但是自己通過這個(gè)軟件流程下來發(fā)現(xiàn)最后拼接得到的scaffold的數(shù)量有2000+!;≡雪侥!但是公司最后回饋的草圖只有100條不到的scaffold數(shù)量。說明僅靠這些步驟拼接出來的質(zhì)量并不是很高>铩K儆А!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末代乃,一起剝皮案震驚了整個(gè)濱河市旬牲,隨后出現(xiàn)的幾起案子搁吓,更是在濱河造成了極大的恐慌,老刑警劉巖擂橘,帶你破解...
    沈念sama閱讀 222,252評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件贝室,死亡現(xiàn)場離奇詭異,居然都是意外死亡滑频,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,886評論 3 399
  • 文/潘曉璐 我一進(jìn)店門银伟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來彤避,“玉大人,你說我怎么就攤上這事琉预≡裁祝” “怎么了啄栓?”我有些...
    開封第一講書人閱讀 168,814評論 0 361
  • 文/不壞的土叔 我叫張陵昙楚,是天一觀的道長。 經(jīng)常有香客問我削葱,道長崎场,這世上最難降的妖魔是什么遂蛀? 我笑而不...
    開封第一講書人閱讀 59,869評論 1 299
  • 正文 為了忘掉前任李滴,我火速辦了婚禮,結(jié)果婚禮上谆扎,老公的妹妹穿的比我還像新娘堂湖。我一直安慰自己,他們只是感情好无蜂,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,888評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著训桶,像睡著了一般舵揭。 火紅的嫁衣襯著肌膚如雪躁锡。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,475評論 1 312
  • 那天箱叁,我揣著相機(jī)與錄音耕漱,去河邊找鬼抬伺。 笑死峡钓,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的能岩。 我是一名探鬼主播,決...
    沈念sama閱讀 41,010評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼膏燕!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起篷就,我...
    開封第一講書人閱讀 39,924評論 0 277
  • 序言:老撾萬榮一對情侶失蹤竭业,失蹤者是張志新(化名)和其女友劉穎智润,沒想到半個(gè)月后未辆,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體鼎姐,經(jīng)...
    沈念sama閱讀 46,469評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,552評論 3 342
  • 正文 我和宋清朗相戀三年饭尝,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了钥平。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片涉瘾。...
    茶點(diǎn)故事閱讀 40,680評論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡立叛,死狀恐怖贡茅,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情赁还,我是刑警寧澤驹沿,帶...
    沈念sama閱讀 36,362評論 5 351
  • 正文 年R本政府宣布渊季,位于F島的核電站梭域,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏病涨。R本人自食惡果不足惜既穆,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,037評論 3 335
  • 文/蒙蒙 一幻工、第九天 我趴在偏房一處隱蔽的房頂上張望囊颅。 院中可真熱鬧,春花似錦踢代、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,519評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽磅甩。三九已至,卻和暖如春姥卢,著一層夾襖步出監(jiān)牢的瞬間隔显,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,621評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留掷豺,地道東北人当船。 一個(gè)月前我還...
    沈念sama閱讀 49,099評論 3 378
  • 正文 我出身青樓德频,卻偏偏與公主長得像,于是被迫代替她去往敵國和親竞思。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,691評論 2 361

推薦閱讀更多精彩內(nèi)容