利用宏基因組數(shù)據(jù)組裝基因組-評估篇

前言:

最近組裝了一種病原體的基因組,基因組大小為610kb客们,結(jié)果發(fā)現(xiàn)在300,000-400,000之間發(fā)現(xiàn)很多的Gap區(qū)域崇决,需要找一下原因材诽。因?yàn)槭怯枚鷶?shù)據(jù)測的,我先推測的原因是基因組這個(gè)區(qū)域有可能GC含量比較高恒傻,那下載一下它的基因組岳守,看一下,找到了bedtools工具碌冶,發(fā)現(xiàn)這個(gè)軟件功能十分強(qiáng)大,bedtools總共有二三十個(gè)工具/命令來處理基因組數(shù)據(jù)涝缝。比如:根據(jù)bed中的位置信息提取目標(biāo)基因及其上下游序列扑庞;統(tǒng)計(jì)基因組不同區(qū)間的GC含量;提取gff文件的所有基因位置,并轉(zhuǎn)換成bed格式拒逮,計(jì)算覆蓋度(coverage)(coverageBed罐氨,genomeCoverageBed)等等。

一.Bedtools評估基因組二代數(shù)據(jù)覆蓋度

分析思路:把這個(gè)基因組文件按照100,000bp大小滩援,按照堿基位置分割成6個(gè)文件栅隐,然后分別計(jì)算不同區(qū)間的GC含量。

1.軟件下載安裝:

https://github.com/arq5x/bedtools2
wget?https://github.com/arq5x/bedtools2/releases/download/v2.30.0/bedtools-2.30.0.tar.gz
tar?-zxf?bedtools-2.30.0.tar.gzcd?bedtools2/make

然后用help看一下玩徊,安裝成功租悄。

?2.軟件使用:

準(zhǔn)備基因組文件,如果是多個(gè)序列文件恩袱,比如我的基因組文件泣棋,先計(jì)算各個(gè)contig/scaffold的長度:

使用python里面的pyfaidx模塊的faidx命令,代碼如下:

conda activate py36 (我自己的一個(gè)py36小環(huán)境)

pip install pyfaidx

faidxminia_k81.contigs.fa -i chromsizes > size.genome

? ?結(jié)果如下:

劃分窗口:

/public/home/rp1016swf/rp1016swf/software/bedtools2/bin/bedtools makewindows -g sizes.genome -w 50000 > windows. Bed

-g sizes.genome是要?jiǎng)澐值幕蚪M畔塔,格式為兩列:染色體潭辈、染色體長度-w?50000為窗口大小為5wwindows.bed為輸出文件,格式為三列:染色體澈吨、區(qū)間開始位點(diǎn)把敢、區(qū)間結(jié)束位點(diǎn)。

?統(tǒng)計(jì)窗口內(nèi)的GC含量:

/bedtools2/bin/bedtools?nuc?-fi?ViralProj237323_genomic.fna?-bed?windows.bed?|?cut?-f?1-3,5?>?5w_gc.bed

統(tǒng)計(jì)窗口內(nèi)的平均覆蓋深度

bedtools?coverage?-a?windows.bed?-b?SRR081241.sorted.bam?>?RR081241.depth.txt
bedtools?coverage對劃分好的每個(gè)滑動(dòng)窗口進(jìn)行reads數(shù)(depth)的統(tǒng)計(jì)谅辣。
-a windows為上一步劃分好的區(qū)間

-SRR081241.sorted.bam為測序數(shù)據(jù)mapping到參考基因組的比對文件

HG00096.depth.txt為統(tǒng)計(jì)結(jié)果的輸出文件修赞,格式為7列:染色體、區(qū)間起始位點(diǎn)桑阶、區(qū)間結(jié)束位點(diǎn)榔组、該區(qū)間內(nèi)的reads數(shù)、該區(qū)間內(nèi)的堿基數(shù)联逻、區(qū)間大小搓扯、該區(qū)間的平均覆蓋度

生成的txt文件共有7列,分別為序列編號包归、起始位置锨推、結(jié)束位置、reads數(shù)、堿基數(shù)换可、區(qū)間大小椎椰、平均覆蓋深度

二、Bowtie2+Samtools評估基因組二代數(shù)據(jù)比對率

Bowtie下載安裝

wget https://sourceforge.net/projects/bowtie-bio/files/bowtie2/2.5.1/bowtie2-2.5.1-linux-x86_64.zip/

1.先是構(gòu)建索引:

#bowtie2-build -f ./minia_k81.contigs.fa -p ./minia_k81.contigs?-p索引文件前綴名

2.bowtie2比對及samtools轉(zhuǎn)為bam文件,并根據(jù)比對情況進(jìn)行提取

bwa比對生成的為sam(sequence Alignment mapping)文件沾鳄,將SAM轉(zhuǎn)換為二進(jìn)制對應(yīng)的BAM格式慨飘。二進(jìn)制格式對于計(jì)算機(jī)程序來說更容易使用。要將SAM轉(zhuǎn)換為BAM译荞,我們使用samtools view命令瓤的。

bowtie2 -x ./minia_k81.contigs -p 20 -1 20220652_mapped_P1.fq -2 20220652_mapped_P2.fq -S  ./minia_k81.contigs.sam

3.準(zhǔn)備序列比對后生成的 bam 文件或者 .sam 文件

samtools view -bS minia_k81.contigs.sam > minia_k81.contigs.bam

4.統(tǒng)計(jì)序列比對情況

samtools flagstat scaffolds.bam > flagstatstat.txt

本文使用 文章同步助手 同步

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市吞歼,隨后出現(xiàn)的幾起案子圈膏,更是在濱河造成了極大的恐慌,老刑警劉巖篙骡,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件稽坤,死亡現(xiàn)場離奇詭異,居然都是意外死亡糯俗,警方通過查閱死者的電腦和手機(jī)尿褪,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來得湘,“玉大人茫多,你說我怎么就攤上這事『龉簦” “怎么了天揖?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長跪帝。 經(jīng)常有香客問我今膊,道長,這世上最難降的妖魔是什么伞剑? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任斑唬,我火速辦了婚禮,結(jié)果婚禮上黎泣,老公的妹妹穿的比我還像新娘恕刘。我一直安慰自己,他們只是感情好抒倚,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布褐着。 她就那樣靜靜地躺著,像睡著了一般托呕。 火紅的嫁衣襯著肌膚如雪含蓉。 梳的紋絲不亂的頭發(fā)上频敛,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機(jī)與錄音馅扣,去河邊找鬼斟赚。 笑死,一個(gè)胖子當(dāng)著我的面吹牛差油,可吹牛的內(nèi)容都是我干的拗军。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼蓄喇,長吁一口氣:“原來是場噩夢啊……” “哼发侵!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起公罕,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎耀销,沒想到半個(gè)月后楼眷,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡熊尉,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年罐柳,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片狰住。...
    茶點(diǎn)故事閱讀 37,997評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡张吉,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出催植,到底是詐尸還是另有隱情肮蛹,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響村生,放射性物質(zhì)發(fā)生泄漏竿拆。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一湿镀、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦赋咽、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至宦赠,卻和暖如春亦镶,著一層夾襖步出監(jiān)牢的瞬間日月,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工缤骨, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留爱咬,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓绊起,卻偏偏與公主長得像精拟,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子虱歪,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容