細(xì)菌基因組拼接（一）

2021.3.17
持續(xù)更新中。婆芦。倦西。

?總綱

材料：Illumina雙末端測序原始數(shù)據(jù)（通常是兩個(gè)fastaq的.gz壓縮文件倍宾，文中為：sequence_1.fastq.gz和sequence_2.fastq.gz）
軟件：FastQC、Trimmomatic醇坝、SPAdes邑跪、QUAST（均可通過conda一鍵下載）

1. FastQC —— 質(zhì)量評估

FastQC是一款基于Java的軟件，它可以快速地對測序數(shù)據(jù)進(jìn)行質(zhì)量評估呼猪，并生成網(wǎng)頁版的報(bào)告画畅。

1.1 使用

fastqc <sequence_1.fastq.gz> <sequence_2.fastq.gz> -o <目錄名> -t 線程數(shù)

重要參數(shù)
1. -o：輸出文件目錄（需要提前新建一個(gè)目錄）
2. -t：選擇程序運(yùn)行的線程數(shù)
3. -f：指定輸入文件格式

1.2 輸出文件

每個(gè)原始數(shù)據(jù)文件會生成兩個(gè)文件，一個(gè)為.html網(wǎng)頁文件宋距，一個(gè)為.zip文件轴踱。打開.html可以查看序列的測序質(zhì)量情況，分為三個(gè)等級：合格項(xiàng)為綠色√谚赎，警告是黃色的淫僻！，不合格為紅色的×壶唤。（綠色越多越好）

fastqc質(zhì)量報(bào)告

2. Trimmomatic —— 過濾

Trimmomatic用于illumina二代測序數(shù)據(jù)的reads處理雳灵，主要用于對接頭(adapter)序列和低質(zhì)量序列進(jìn)行過濾。能夠識別fastq的.gz和.bz2文件闸盔。主要有兩種模式：雙端模式（PE）和單端模式（SE）悯辙。

注：二代測序下機(jī)數(shù)據(jù)一般是150bp的序列，這些序列理論上全是自己的目標(biāo)序列蕾殴，但是有可能由于測通而含有接頭序列笑撞。

2.1 使用(一條命令)

trimmomatic PE -phred33  <sequence_1.fastq.gz> <sequence_2.fastq.gz> 
 <目錄/sequence_1_paired.fastq.gz> <目錄/sequence_1_unpaired.fastq.gz> <目錄/sequence_2_paired.fastq.gz> <目錄/sequence_2_unpaired.fastq.gz> 
 ILLUMINACLIP:~/miniconda3/pkgs/trimmomatic-0.39-1/share/trimmomatic/adapters/TruSeq3-PE.fa:2:30:10:1:TRUE
 SLIDINGWINDOW:5:20 LEADING:20 TRAILING:20 MINLEN:75

重要參數(shù)
1. PE：指定為雙末端測序（單端用SE）
2. -phred33將 reads 的堿基質(zhì)量值體系轉(zhuǎn)為 phred-33，也可以設(shè)置為phred-64钓觉。
3. ILLUMINACLIP：過濾 reads 中的 Illumina 測序接頭和引物序列茴肥，并決定是否去除反向互補(bǔ)的 1/2 中的 2。ILLUMINACLIP參數(shù)后面的是.fa文件荡灾，用conda安裝的話一般在miniconda3/pkgs/trimmomatic-0.39-1/share/trimmomatic/adapters/TruSeq3-PE.fa下瓤狐，其中有兩種文件可選：TruSeq3-PE.fa和TruSeq2-PE.fa瞬铸，TruSeq3-PE.fa適用于Hiseq和Miseq機(jī)器測序，TruSeq2-PE.fa用于GAII機(jī)器測序础锐。（TruSeq和Nextera是DNA建庫常用的試劑盒）
4. SLIDINGWINDOW： 從 reads 的 5' 端開始嗓节，進(jìn)行滑窗質(zhì)量過濾。示例的意思是以5bp為窗口皆警，若這5bp堿基的平均質(zhì)量值低于20拦宣，則要進(jìn)行切除。
5. LEADING：從reads起始開始信姓，去除質(zhì)量低于閾值或?yàn)?N'的堿基鸵隧。
6. TRAILING：從 reads 的末尾開始切除質(zhì)量值低于閾值的堿基。
7. MINLEN：如果經(jīng)過剪切后 reads 的長度低于閾值則丟棄這條 reads意推。

可選參數(shù)
1. AVGQUAL：如果 reads 的平均堿基質(zhì)量值低于閾值則丟棄這條 reads豆瘫。
2. MAXINFO：一個(gè)自動調(diào)整的過濾選項(xiàng)，在保證 reads 長度的情況下盡量降低測序錯(cuò)誤率菊值，最大化 reads 的使用價(jià)值外驱。

2.2 輸出文件

一共會輸出四個(gè)文件，其中雙端序列都保留的序列在sequence_1_paired.fastq.gz和sequence_2_paired.fastq.gz中可以用于下一步的序列拼接腻窒。只保留一條的序列在sequence_1_unpaired.fastq.gz和sequence_2_unpaired.fastq.gz中昵宇。

過濾之后，還需要用fastqc對過濾后的數(shù)據(jù)進(jìn)行質(zhì)控定页，如果不符合要求趟薄，可重新更改參數(shù)進(jìn)行過濾绽诚。

3. SPAdes —— 短序列拼接

SPAdes是常用的序列拼接軟件之一典徊，支持illumina恩够、PacBio卒落、Nanopore、Sanger蜂桶、Ion Torrent等測序數(shù)據(jù)的拼接儡毕，同樣適合用于混合組裝來改善拼接效果。

3.1 使用

spades.py --pe1-1 <sequence_1_paired.fastq.gz> --pe1-2 <sequence_2_paired.fastq.gz> 
 -t 10  -m 100 --careful --phred-offset 33 -o <spades_out>

重要參數(shù)：
1. --pe<#>-1：指定輸入文庫扑媚，其中#表示第幾個(gè)文庫腰湾。例如，第一pairend文庫就可以寫成--pe1-1疆股，之后接reads1文件
2. --pe<#>-2：和上面類似费坊，如果是大片段的matepair文庫，就使用--mp1-1等旬痹。
3. -t：線程數(shù)附井，默認(rèn)是16個(gè)讨越。
4. -m：用于內(nèi)存限制。
5. --careful：減少錯(cuò)誤和插入序列永毅，添加此項(xiàng)會消耗更多的時(shí)間把跨。
6. --phred-offset：堿基質(zhì)量體系，在數(shù)據(jù)糾錯(cuò)中會用到沼死，現(xiàn)在illumina數(shù)據(jù)一般采用phred 33着逐。
7. -o：輸出目錄

可選參數(shù)：
1. -k：k-mer值列表，數(shù)字必須是小于128的奇數(shù)意蛀。注：若小片段文庫(150bp×2)數(shù)據(jù)量足夠(50×+)滨嘱，則推薦使用-k 21,33,55,77。
2. --pacbio：指定pacbio數(shù)據(jù)輸入浸间。
3. --nanopore：指定nanopore數(shù)據(jù)輸入太雨。

3.2 輸出文件

著重關(guān)注文件*scaffolds.fasta和*contigs.fasta文件即可。

4. QUAST —— 評價(jià)組裝結(jié)果

4.1 安裝

conda install quast

在用conda安裝了FastQC魁蒜、Trimmomatic囊扳、SPAdes后，環(huán)境中的python版本是3.9兜看，安裝不上QUAST了锥咸，在一個(gè)低版本的python環(huán)境下安裝了QUAST。

4.2 使用

quast.py -o <quast_out>  -R <reference_genome.fa> -t 25 <*scaffolds.fasta> <*scaffolds.fasta>

重要參數(shù)：
1. -o：輸出目錄
2. -R：參考基因組序列
3. -t：線程數(shù)

5. 總結(jié)

自己提取基因組送去公司測了以此框架圖细移，回饋的原始數(shù)據(jù)深度達(dá)到了200×+搏予，但是自己通過這個(gè)軟件流程下來發(fā)現(xiàn)最后拼接得到的scaffold的數(shù)量有2000+！；≡雪侥！但是公司最后回饋的草圖只有100條不到的scaffold數(shù)量。說明僅靠這些步驟拼接出來的質(zhì)量并不是很高＞铩Ｋ儆А！

最后編輯于：2021.08.07 20:28:14

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末代乃，一起剝皮案震驚了整個(gè)濱河市旬牲，隨后出現(xiàn)的幾起案子搁吓，更是在濱河造成了極大的恐慌，老刑警劉巖擂橘，帶你破解...
沈念sama閱讀 222,252評論 6贊 516
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件贝室，死亡現(xiàn)場離奇詭異，居然都是意外死亡滑频，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,886評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門银伟，熙熙樓的掌柜王于貴愁眉苦臉地迎上來彤避，“玉大人，你說我怎么就攤上這事琉预≡裁祝” “怎么了啄栓？”我有些...
開封第一講書人閱讀 168,814評論 0贊 361
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵昙楚，是天一觀的道長。經(jīng)常有香客問我削葱，道長崎场，這世上最難降的妖魔是什么遂蛀？我笑而不...
開封第一講書人閱讀 59,869評論 1贊 299
?港島之戀（遺憾婚禮）
正文為了忘掉前任李滴，我火速辦了婚禮，結(jié)果婚禮上谆扎，老公的妹妹穿的比我還像新娘堂湖。我一直安慰自己，他們只是感情好无蜂，可當(dāng)我...
茶點(diǎn)故事閱讀 68,888評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著训桶，像睡著了一般舵揭。火紅的嫁衣襯著肌膚如雪躁锡。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,475評論 1贊 312
城市分裂傳說
那天箱叁，我揣著相機(jī)與錄音耕漱，去河邊找鬼抬伺。笑死峡钓，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的能岩。我是一名探鬼主播，決...
沈念sama閱讀 41,010評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼膏燕！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起篷就，我...
開封第一講書人閱讀 39,924評論 0贊 277
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤竭业，失蹤者是張志新（化名）和其女友劉穎智润，沒想到半個(gè)月后未辆，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體鼎姐，經(jīng)...
沈念sama閱讀 46,469評論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,552評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年饭尝，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了钥平。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片涉瘾。...
茶點(diǎn)故事閱讀 40,680評論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡立叛，死狀恐怖贡茅，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情赁还，我是刑警寧澤驹沿，帶...
沈念sama閱讀 36,362評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布渊季，位于F島的核電站梭域，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏病涨。R本人自食惡果不足惜既穆，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,037評論 3贊 335
男人毒藥：我在死后第九天來索命
文/蒙蒙一幻工、第九天我趴在偏房一處隱蔽的房頂上張望囊颅。院中可真熱鬧，春花似錦踢代、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,519評論 0贊 25
一樁弒父案窑眯，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽磅甩。三九已至，卻和暖如春姥卢，著一層夾襖步出監(jiān)牢的瞬間隔显，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,621評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留掷豺，地道東北人当船。一個(gè)月前我還...
沈念sama閱讀 49,099評論 3贊 378
代替公主和親
正文我出身青樓德频，卻偏偏與公主長得像，于是被迫代替她去往敵國和親竞思。傳聞我的和親對象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,691評論 2贊 361