細(xì)菌基因組拼接最終流程(三)

2021.4.3
持續(xù)更新中遮晚。性昭。。
目的:從Illumina原始下機(jī)數(shù)據(jù)拼接細(xì)菌基因組草圖县遣。
軟件:FastQC糜颠、Cutadapt、Velvet萧求、SSPACE其兴、gapfiller




1. FastQC(v0.11.9) —— 質(zhì)控

fastqc <sequence_1.fastq.gz> <sequence_2.fastq.gz> -o <目錄名> -t 線程數(shù)

重要參數(shù):
1. -o:輸出文件目錄(需要提前新建一個(gè)目錄)
2. -t:選擇程序運(yùn)行的線程數(shù)
3. -f:指定輸入文件格式

主要結(jié)果文件:*.html

2. Cutadapt(v3.3) —— 過濾

cutadapt -a AGATCGGAAGAGCACACGTCTGAACTCCAGTCA -A AGATCGGAAGAGCACACGTCTGAACTCCAGTCA 
-o <sequence_filtered_1.fastq.gz> -p <sequence_filtered_2.fastq.gz> 
-q 20,20 --max-n 0.1 -m 75 <sequence_1.fastq.gz> <sequence_2.fastq.gz>

我在另一臺(tái)計(jì)算機(jī)上安裝之后使用過程中遇到一些麻煩,好像是讀入文件的哪個(gè)模塊缺失夸政,暫時(shí)還未解決

重要參數(shù)
1. -a:paired-end測(cè)序文件中正向序列文件接頭序列(文件1)
2. -A:paired-end測(cè)序文件中反向序列文件接頭序列(文件2)
3. -o:文件1去接頭后的結(jié)果文件
4. -p:文件2去接頭后的結(jié)果文件
5. -q:序列兩端堿基質(zhì)量低于某一數(shù)值時(shí)被切除元旬,用,隔開,例如:-q 20,20
6. -m:reads1和reads2中切除接頭后的序列長度最小值法绵,低于這個(gè)數(shù)值則去除,例如:-m 75酪碘。
7. --max-n:N堿基占比一定比例時(shí)被去除朋譬,例如--max-n 0.1,表示N堿基占read比例到10%時(shí)會(huì)被去除兴垦。
8:最后是兩個(gè)原始序列文件徙赢。

可選參數(shù)
1. -- pair-filter=(any|both):any表示read1 和 read2任何一個(gè)檢測(cè)到接頭均舍棄;both表示 read1 和 read2 全部檢測(cè)到接頭才舍棄read1 和 read2探越。(默認(rèn)any)
2. -O :默認(rèn)為3狡赐,即至少三個(gè)堿基配才認(rèn)為是adapter序列。
3. -e:最大錯(cuò)配比例钦幔,默認(rèn)是0.1枕屉。(解釋:cutadapt在一條read中檢測(cè)到20bp的接頭序列,那么允許該
20bp的接頭序列有2個(gè)堿基的錯(cuò)配)




3. Kmergenie —— 預(yù)測(cè)最佳kmer值和估計(jì)基因組大小

kmergenie <fq.list> -o <result> -s 10 -t 10

重要參數(shù):
1. fq.list:包含需要查詢的文件鲤氢,一行一個(gè)文件名(文件所在的絕對(duì)路徑)
2. -o:結(jié)果輸出的前綴名
3. -l:系統(tǒng)考慮的最小k值(默認(rèn):15)
4. -k:系統(tǒng)考慮的最大k值(默認(rèn):121)
5. -s:從最小k值到最大k值搀擂,每次增加的值(默認(rèn):10)
6. -t:線程數(shù)

我在另一臺(tái)計(jì)算機(jī)上安裝之后使用過程中遇到一些麻煩!原因還沒有弄清楚卷玉!




3. Velvet —— 拼接contigs

步驟一:利用velveth對(duì)數(shù)據(jù)構(gòu)建一個(gè)hash表

velveth <output> 111 -shortPaired -fastq -separate
<sequence_filtered_1.fastq.gz> <sequence_filtered_2.fastq.gz>

重要參數(shù):
1. output:輸出文件目錄
2. 111:即hash_lenghth哨颂,用來設(shè)置k-mer的大小。也可以是31,97,2的形式相种,指分別拼接kmer從31到97威恼,依次增加2的序列(默認(rèn):31)
3. -shortPaired:reads的類型。
4. -fastq:輸入文件的格式(默認(rèn)是fasta)寝并。
5. -separate:分開兩個(gè)文件讀入箫措。

步驟二:velvetg進(jìn)行序列拼接

 velvetg <output> -exp_cov auto -cov_cutoff auto

重要參數(shù):
1. <output>:velveth生成的結(jié)果目錄
2. -exp_cov:期望的kmer覆蓋度,設(shè)置成auto用于標(biāo)準(zhǔn)的基因組測(cè)序衬潦。該參數(shù)設(shè)置成auto后蒂破,-cov_cutoff也許設(shè)置成auto。

4. SSPACE —— 拼接scaffolds

4.1 下載安裝

1. 下載bowtie(或者bowtie2)

conda install bowtie2

2. 從github下載最新版本加壓縮進(jìn)入后進(jìn)入加壓縮目錄别渔。(最新的免費(fèi)版本是v2.1.1)

① 最新的版本可以用bwa直接處理壓縮包附迷,可惜作者并不是免費(fèi)提供的。
② 解壓縮后的SSPACE_Basic.pl即是主要的執(zhí)行命令

4.2 使用

步驟一:寫配置文件library.txt

#中間以空格符隔開
#1 2 3 4 5 6
#文庫 正向序列 反向序列 插入文庫大小 偏差 reas方向(pairend測(cè)序和matepaire不一樣)
lib1 FP822_filtered_R1.fastq FP822_filtered_R2.fastq 500 0.25 FR

步驟二:scaffold

perl SSPACE_Basic_v2.0.pl -l <library.txt> -s <velvet_contigs.fa> -T 20 -b standard_out

重要參數(shù):
1. -l:后接配置文
2. -s:要連接的contig序列
3. -T:-T:線程數(shù)(默認(rèn):1)
4. -b:輸出文件前綴名

可選參數(shù):
① -m:利用reads對(duì)contig進(jìn)行衍生時(shí)哎媚,最小overlap的長度(默認(rèn):32bp)
② -o:利用reads對(duì)contig進(jìn)行衍生時(shí)喇伯,最小reads覆蓋的數(shù)量(默認(rèn):20)
③ -k:連接兩條contig連接時(shí),最小支持reads對(duì)數(shù)(默認(rèn):5對(duì))
④ -a:連接兩條contig連接時(shí)拨与,最大連接的比率(默認(rèn):0.7)
⑤ -n:連接兩條contig連接時(shí)稻据,最小需要的overlap長度(默認(rèn):15bp)
⑥ -z:用于連接scaffold的最小contig長度(默認(rèn):0)
⑦ -g:比對(duì)過程中,允許的gap數(shù)(默認(rèn):0)
⑧-p:是否輸出dot文件用于圖形展示(默認(rèn):0,不輸出)




5. GapFiller —— 拼接scaffolds

????由于無法獲得該軟件捻悯,因此補(bǔ)洞的時(shí)候選擇了其他的替代軟件:soapdenovo2-gapcloser匆赃。其配置文件的書寫方法總體同soapdenovo2,需要將asm_flags的參數(shù)設(shè)置為4即可今缚。

  • 配置文件
max_rd_len=150
[LIB]
avg_ins=439
reverse_seq=0
asm_flags=4
rank=1
pair_num_cutoff=3
map_len=32
q1=FP822_R1.fastq.gz
q2=FP822_R2.fastq.gz
  • 使用方法
GapCloser -a <scaffolds.fasta> -b <config_file> -o <gapcloser_scaffolds.fasta> -l 150 -t 10

重要參數(shù):
-a:輸入scaffold文件
-b:輸入配置文件
-o:輸出文件名
-l:read的最大程度(默認(rèn)100)
-t:線程數(shù)(默認(rèn)1)




6. 結(jié)果

結(jié)果比較



7. 總結(jié)

  • 根據(jù)目前所獲得信息(拼接知識(shí)和軟件)算柳,該套流程拼接結(jié)果和公司較為接近。
  • 影響最終拼接效果的因素有很多姓言,其中kmer取值較為關(guān)鍵瞬项。
  • 如果有更好的軟件,后續(xù)會(huì)繼續(xù)更新何荚,也希望有高手指出不足之處囱淋。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市餐塘,隨后出現(xiàn)的幾起案子妥衣,更是在濱河造成了極大的恐慌,老刑警劉巖戒傻,帶你破解...
    沈念sama閱讀 211,639評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件称鳞,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡稠鼻,警方通過查閱死者的電腦和手機(jī)冈止,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,277評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來候齿,“玉大人熙暴,你說我怎么就攤上這事』哦ⅲ” “怎么了周霉?”我有些...
    開封第一講書人閱讀 157,221評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長亚皂。 經(jīng)常有香客問我俱箱,道長,這世上最難降的妖魔是什么灭必? 我笑而不...
    開封第一講書人閱讀 56,474評(píng)論 1 283
  • 正文 為了忘掉前任狞谱,我火速辦了婚禮,結(jié)果婚禮上禁漓,老公的妹妹穿的比我還像新娘跟衅。我一直安慰自己,他們只是感情好播歼,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,570評(píng)論 6 386
  • 文/花漫 我一把揭開白布伶跷。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪叭莫。 梳的紋絲不亂的頭發(fā)上蹈集,一...
    開封第一講書人閱讀 49,816評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音雇初,去河邊找鬼拢肆。 笑死,一個(gè)胖子當(dāng)著我的面吹牛抵皱,可吹牛的內(nèi)容都是我干的善榛。 我是一名探鬼主播辩蛋,決...
    沈念sama閱讀 38,957評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼呻畸,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了悼院?” 一聲冷哼從身側(cè)響起伤为,我...
    開封第一講書人閱讀 37,718評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎据途,沒想到半個(gè)月后绞愚,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,176評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡颖医,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,511評(píng)論 2 327
  • 正文 我和宋清朗相戀三年位衩,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片熔萧。...
    茶點(diǎn)故事閱讀 38,646評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡糖驴,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出佛致,到底是詐尸還是另有隱情贮缕,我是刑警寧澤,帶...
    沈念sama閱讀 34,322評(píng)論 4 330
  • 正文 年R本政府宣布俺榆,位于F島的核電站感昼,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏罐脊。R本人自食惡果不足惜定嗓,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,934評(píng)論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望萍桌。 院中可真熱鬧蜕乡,春花似錦、人聲如沸梗夸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,755評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至辛块,卻和暖如春畔派,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背润绵。 一陣腳步聲響...
    開封第一講書人閱讀 31,987評(píng)論 1 266
  • 我被黑心中介騙來泰國打工线椰, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人尘盼。 一個(gè)月前我還...
    沈念sama閱讀 46,358評(píng)論 2 360
  • 正文 我出身青樓憨愉,卻偏偏與公主長得像,于是被迫代替她去往敵國和親卿捎。 傳聞我的和親對(duì)象是個(gè)殘疾皇子配紫,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,514評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容