Meta genomics Covid review

Metagenomic analysis reveals oropharyngeal microbiota alterations in patients with COVID-19

哈工大省醫(yī)

宏基因組分析揭示了新冠病人口腔微生物的改變牢裳。

31 covid-19逢防,29 flu,28 normal 三組對(duì)照蒲讯。

宏基因組數(shù)據(jù)先區(qū)分出metagenomics忘朝,和COVID-19,reads伶椿,然后mapping to covid-19 reference.

組裝出whole genome 看看snp辜伟,哪些位點(diǎn)是否有變異臣淤?

virus discovery抄谐?

看鑒別出是哪種virus

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7441049/

鑒定出的COVID-19 樣本:定的標(biāo)準(zhǔn)是什么塘娶?

討論:

meta對(duì)疾病的惡化,和預(yù)后的影響偎痛。

[]metaquast 提供reference

[]prokka參數(shù) --kingdom 中Bacteria 和Viruses的區(qū)別

########################################################

用contig跟coronavirus reference做blast,

找到所有的coronavirus的contig独郎,并畫(huà)圖:

cd /USB/metagenomics/analysis/my_project/blastn_coronavirus_result

python? gather_blastn_contig.py /USB/metagenomics/analysis/my_project/blastn_coronavirus_result /USB/metagenomics/analysis/my_project/megahit_result >all_sample.coronavirus.contigs.fa

下一步用mega或什么對(duì)齊軟件畫(huà)個(gè)樹(shù)看看踩麦。

保留這個(gè)結(jié)果,并且驗(yàn)證跟kraken2的結(jié)果的一致性:

#######################################################

braken build database

/USB/tools/Bracken-2.6.2/bracken-build -d /USB/meta_genomics_pipeline/database/kraken2_database -t 32 -l 250

#######################################################

troubleshooting for kraken2 results

Question:kraken2的結(jié)果中有48% unclassified氓癌,并且沒(méi)有找到virus相關(guān)的任何比例谓谦。

Loading database information... done.

275881 sequences (55.16 Mbp) processed in 10.696s (1547.6 Kseq/m, 309.44 Mbp/m).

? 142595 sequences classified (51.69%)

? 133286 sequences unclassified (48.31%)

解決:在kraken2構(gòu)建完成的database中seqid2taxid.map文件里面沒(méi)有找到virus的序列,故此推斷在構(gòu)建時(shí)沒(méi)有把virus包含進(jìn)去贪婉,因?yàn)橹匦率褂胟raken2-build 構(gòu)建數(shù)據(jù)庫(kù)反粥。Note:重新構(gòu)建數(shù)據(jù)庫(kù)前必須要?jiǎng)h掉原來(lái)的seqid2taxid.map,taxo.k2d疲迂,hash.k2d才顿,opts.k2d四個(gè)文件,

第二次:after rebuild the database尤蒿,重新跑kraken2:

$ /USB/meta_genomics_pipeline/bin/kraken2 --db /USB/meta_genomics_pipeline/database/kraken2_database? --threads 50? --report /USB/metagenomics/analysis/my_project/kraken2_result/houmaohu.kraken2.report --use-names --output /USB/metagenomics/analysis/my_project/kraken2_result/houmaohu.kraken2.output /USB/metagenomics/analysis/my_project/kneaddata_result/houmaohu.kneaddata.fastq

Loading database information... done.

275881 sequences (55.16 Mbp) processed in 3.922s (4221.0 Kseq/m, 843.98 Mbp/m).

? 174591 sequences classified (63.28%)

? 101290 sequences unclassified (36.72%)

finally we found Covid-19 in kraken2 result. yeah. but still 36.72% of sequences are unclassified. we doubt that they are human related sequencing .

從第二次的結(jié)果中能夠找到virus結(jié)果了郑气,但是仍然有36%是unclassified,驗(yàn)證是否是human genome腰池,發(fā)現(xiàn)不是尾组。

驗(yàn)證方法如下:

使用bowtie2 將用于kraken2的fastq跟hg19 reference比對(duì),發(fā)現(xiàn)比對(duì)率為0.說(shuō)明該fastq已經(jīng)不含有human genome了示弓。那么懷疑是其它fungi讳侨,plasmid,等數(shù)據(jù)庫(kù)避乏,為了驗(yàn)證爷耀,

需要下載其他數(shù)據(jù)庫(kù),并重新使用kraken2-build 構(gòu)建index拍皮。

第三次更新數(shù)據(jù)庫(kù)之后

$ /USB/meta_genomics_pipeline/bin/kraken2 --db /USB/meta_genomics_pipeline/database/kraken2_database? --threads 32? --report /USB/metagenomics/analysis/my_project/kraken2_result/houmaohu.kraken2.report --use-names --output /USB/metagenomics/analysis/my_project/kraken2_result/houmaohu.kraken2.output /USB/metagenomics/analysis/my_project/kneaddata_result/houmaohu.kneaddata.fastq 2>/USB/metagenomics/analysis/my_project/kraken2_result/houmaohu.kraken2.log

Loading database information... done.

275881 sequences (55.16 Mbp) processed in 9.124s (1814.2 Kseq/m, 362.74 Mbp/m).

? 174783 sequences classified (63.35%)

? 101098 sequences unclassified (36.65%)

still 36.65% unclassified

那么這些序列是什么呢歹叮?輸出來(lái)看看吧跑杭,重新用kraken2 輸出unclassified reads。在ncbi上

發(fā)現(xiàn)還是virus和一些bacteria咆耿,那下載nt庫(kù)試試看吧德谅。

kraken2-build --download-library nt --db ./

######################################################################

kraken2 report explaination: here

######################################################################

'a' : all taxonomic levels

'k' : kingdoms

'p' : phyla only

'c' : classes only

'o' : orders only

'f' : families only

'g' : genera only

's' : species only

######################################################################

記錄cornonavirus的相關(guān)信息:

單獨(dú)的cov-reference放在:/USB/meta_genomics_pipeline/database/SARS-CoV-2-reference

NCBI名稱(chēng):

>NC_045512.2 Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome

長(zhǎng)度:29903bp

######################################################################

添加contig注釋功能:目的:鑒定組裝出來(lái)的contig都是什么物種。目標(biāo):能夠找到target物種萨螺。用于后續(xù)的分析窄做。

思路:基于kraken2使用的bacteria,virus慰技,fungi椭盏,archaea,等6個(gè)數(shù)據(jù)庫(kù)的fasta文件吻商,重新構(gòu)建blastn 所需index掏颊,然后使用blastn 將sample組裝好的contigalign到該數(shù)據(jù)庫(kù)上。使用in-house腳本統(tǒng)計(jì)并整理每個(gè)contig的物種信息艾帐,并匯總乌叶。

1)構(gòu)建數(shù)據(jù)庫(kù):

cd /USB/meta_genomics_pipeline/database/blastn_dbs

cat ../kraken2_database/library/*/library.fna > my_kraken_cat6dbs_20210726.fna

makeblastdb? -parse_seqids? -dbtype? nucl? -in? my_kraken_cat6dbs_20210726.fna

2)mapping 添加到main pipeline中,做一個(gè)測(cè)試:

blastn -db /USB/meta_genomics_pipeline/database/blastn_dbs/my_kraken_cat6dbs_20210726.fna -query /USB/metagenomics/analysis/my_project/megahit_result/houmaohu/houmaohu.megahit.final.contigs.fa -out ./sample01.corona.out -outfmt 7 -num_threads 30 -subject_besthit

3)寫(xiě)腳本統(tǒng)計(jì)每條contig都是什么物種(besthit)

輸入文件1:contig文件柒爸,

輸入文件2:blast out 文件准浴,cat 所有blast out文件到一個(gè)文件中,

輸入文件3:blast 時(shí)用到的reference文件中就有id捎稚,叫做seqid2taxid.6abfpuv.map

輸出文件1:contig fasta

思路二:

無(wú)需cat 6個(gè)database乐横,直接分別比對(duì),這樣節(jié)省時(shí)間阳藻,提高運(yùn)算速度晰奖,只是一個(gè)組裝文件會(huì)得到6個(gè)比對(duì)結(jié)果,再用腳本整理到一起

1)那么對(duì)6個(gè)database分別構(gòu)建blastn index

2)分別比對(duì)6次

3)統(tǒng)計(jì)結(jié)果

ls /USB/meta_genomics_pipeline/database/kraken2_database/library/*/library.fna |while read line;do name=`ls $line|awk -F '/' '{print$(NF-1)}'`;echo "makeblastdb? -parse_seqids? -dbtype? nucl? -in $line -out ./$name ";done |sh

有個(gè)數(shù)據(jù)庫(kù)出錯(cuò)了腥泥,檢查blastn的報(bào)錯(cuò)匾南,并重新構(gòu)建blast index,

######################################################################

遺留問(wèn)題:

[]下一步用mega或什么對(duì)齊軟件畫(huà)個(gè)樹(shù)看看蛔外。

[x]rebuild kraken2 database (running)

[x]rerun kraken2 to check ratio after 2 was done

[x]rerun blastn when finished build reference index.

[x]kraken2 結(jié)果畫(huà)圖蛆楞,不畫(huà)了,krona的圖就夠了夹厌。

[x]處理結(jié)果統(tǒng)計(jì)腳本豹爹,完成,將fasta文件用于galaxy展示矛纹。

[x]檢查blast index 的錯(cuò)誤臂聋,重跑blast

######################################################################

使用krona畫(huà)物種分類(lèi)圖:

注意:kraken2.output中第三列為taxa_id,so do not using --use-names when using kraken2.

le ./houmaohu.kraken2.output |cut -f 2,3 >houmaohu.kraken.krona

ktImportTaxonomy houmaohu.kraken.krona -o houmaohu.taxonomy.krona.html

[ WARNING ] Too many query IDs to store in chart; storing supplemental files in 'taxonomy.krona.html.files'.

會(huì)報(bào)一個(gè)warning,但不影響html上的圖

done

######################################################################

驗(yàn)證kneaddata之后的reads是否還有hg19.genome.

$ bowtie2? -p 20 -x /USB/meta_genomics_pipeline/database/kneaddata_database/hg37dec_v0.1 -U ../kneaddata_result/houmaohu.kneaddata.fastq -S houmaohu_r1_bowtie.fw.sam --nofw --local

275881 reads; of these:

? 275881 (100.00%) were unpaired; of these:

? ? 275870 (100.00%) aligned 0 times

? ? 1 (0.00%) aligned exactly 1 time

? ? 10 (0.00%) aligned >1 times

0.00% overall alignment rate

(prokka_env) ceid 15:08:09 /USB/metagenomics/analysis/my_project/test_kneaddata_2hg19

$ bowtie2? -p 20 -x /USB/meta_genomics_pipeline/database/kneaddata_database/hg37dec_v0.1 -U /USB/metagenomics/analysis/my_project/fastqc_result/houmaohu.raw.fastq.gz -S houmaohu_raw_bowtie.fw.sam --nofw --local

488767 reads; of these:

? 488767 (100.00%) were unpaired; of these:

? ? 474782 (97.14%) aligned 0 times

? ? 3171 (0.65%) aligned exactly 1 time

? ? 10814 (2.21%) aligned >1 times

2.86% overall alignment rate

1)原始fastq中就只有2.8%的human reads,

2)kneaddata后沒(méi)有human reads孩等,證明kneaddata會(huì)去除humanreads

3)那么問(wèn)題來(lái)了艾君,kraken2記過(guò)中37% no hit是什么?是什么肄方?是什么冰垄?

############################################################################

看VIP工具文章,寫(xiě)思路权她,出結(jié)果虹茶。

############################################################################

data from paper:

https://www.nature.com/articles/srep23774/tables/2

補(bǔ)充數(shù)據(jù)分析,新增PE數(shù)據(jù)隅要,適配流程蝴罪。

seqkit fx2tab -lg UniVec_Core_library.fixed.fna |cut -f 1,4,5|head -1

python /USB/meta_genomics_pipeline/bin/blastout2contig_annotation.py -c /USB/metagenomics_analysis/analysis/my_project/megahit_result/houmaohu/houmaohu.megahit.final.contigs.fa -b /USB/metagenomics_analysis/analysis/my_project/blastn_result/houmaohu/houmaohu.cat.all.blast.out -m /USB/meta_genomics_pipeline/database/blastn_dbs/seqid2taxid.6abfpuv.map -o /USB/metagenomics_analysis/analysis/my_project/blastn_result/houmaohu.annotated.final.contigs.fa

contig_name? annotation? ref_name? ? ref_gc? ? contig_len? ? contig_gc Genome_coverage

k141_259? ? ? ? Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome? ? 29903? 37.97? 7433? ? 39.63? 24.857%

個(gè)性化分析:

提取所有樣本中的target 物種的組裝結(jié)果序列,并檢查N50拾徙,N90等洲炊,看看全長(zhǎng)多少感局,能不能畫(huà)進(jìn)化樹(shù)之類(lèi)的尼啡,或者后續(xù)snp分析。

################################################

method for phylogeny:

conda create -n phylo blast mafft raxml iqtree bedtools

conda activate phylo

mafft --auto all.coronavirus.with.ref.fa > all.coronavirus.with.ref.out

raxmlHPC -s all.coronavirus.with.ref.out -m GTRGAMMA -n coronavirus_tree -p 12345

# or

iqtree -s all.coronavirus.with.ref.out

cat all.coronavirus.with.ref.out.treefile

paste treefile to https://itol.embl.de/upload.cgi

圖不直觀询微,應(yīng)該用gene,

用contig 注釋出gene崖瞭,在用gene作圖。

補(bǔ)充:

1)Genome Coverage (%)? 撑毛,contig長(zhǎng)度與reference長(zhǎng)度的比例书聚,在已有的腳本上修改。

2)Total reads? (過(guò)濾kneaddata后的fastq的reads藻雌,)

3)Number of reads (%) 統(tǒng)計(jì)比對(duì)上每個(gè)contig后的reads雌续,咋統(tǒng)計(jì)?

評(píng)估每種virus的結(jié)果胯杭。

參數(shù)修正:

megahit --min-len-contig 1000

blastn -evalue 10

reference:

https://genomics.sschmeier.com/ngs-orthology/index.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末驯杜,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子做个,更是在濱河造成了極大的恐慌鸽心,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,376評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件居暖,死亡現(xiàn)場(chǎng)離奇詭異顽频,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)太闺,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,126評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門(mén)糯景,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事蟀淮〕蠛ⅲ” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,966評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵灭贷,是天一觀的道長(zhǎng)温学。 經(jīng)常有香客問(wèn)我,道長(zhǎng)甚疟,這世上最難降的妖魔是什么仗岖? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,432評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮览妖,結(jié)果婚禮上轧拄,老公的妹妹穿的比我還像新娘。我一直安慰自己讽膏,他們只是感情好檩电,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,519評(píng)論 6 385
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著府树,像睡著了一般俐末。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上奄侠,一...
    開(kāi)封第一講書(shū)人閱讀 49,792評(píng)論 1 290
  • 那天卓箫,我揣著相機(jī)與錄音,去河邊找鬼垄潮。 笑死烹卒,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的弯洗。 我是一名探鬼主播旅急,決...
    沈念sama閱讀 38,933評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼牡整!你這毒婦竟也來(lái)了藐吮?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,701評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤果正,失蹤者是張志新(化名)和其女友劉穎炎码,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體秋泳,經(jīng)...
    沈念sama閱讀 44,143評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡潦闲,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,488評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了迫皱。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片歉闰。...
    茶點(diǎn)故事閱讀 38,626評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡辖众,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出和敬,到底是詐尸還是另有隱情凹炸,我是刑警寧澤,帶...
    沈念sama閱讀 34,292評(píng)論 4 329
  • 正文 年R本政府宣布昼弟,位于F島的核電站啤它,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏舱痘。R本人自食惡果不足惜变骡,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,896評(píng)論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望芭逝。 院中可真熱鬧塌碌,春花似錦、人聲如沸旬盯。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,742評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)胖翰。三九已至接剩,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間泡态,已是汗流浹背搂漠。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留某弦,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,324評(píng)論 2 360
  • 正文 我出身青樓而克,卻偏偏與公主長(zhǎng)得像靶壮,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子员萍,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,494評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容