如何從NT/NR數(shù)據(jù)庫(kù)中提取子庫(kù)

最近做有關(guān)小鼠腸道微生物宏基因組,遇到兩個(gè)問(wèn)題何暮,一是數(shù)據(jù)量太大奄喂,二是宿主污染嚴(yán)重。

估計(jì)宿主污染至少80%左右海洼,因而就想通過(guò)一些方法跨新,例如kraken、bowtie等把宿主污染去除坏逢。

那么就有一個(gè)問(wèn)題域帐,如何選擇去除污染的數(shù)據(jù)庫(kù)呢?

思來(lái)想去是整,還是從NT庫(kù)入手肖揣,打算把NT庫(kù)所有動(dòng)物的序列或者所有小鼠的序列提取出來(lái),做成一個(gè)子庫(kù)浮入,用來(lái)去除宿主污染龙优。

百度了一下提取子庫(kù)的方法,大多都是人云亦云事秀,干脆還是自己整理整理彤断。下面是一些步驟

1 首先下載NCBI的taxonomy數(shù)據(jù)庫(kù)


下載完解壓縮,其中names.dmp和nodes.dmp兩個(gè)文件很重要易迹,是后續(xù)提取子庫(kù)的基礎(chǔ)

2 下載NCBI的TaxonKit軟件宰衙,http://bioinf.shenwei.me/taxonkit/download/,linux系統(tǒng)直接解壓

而后把names.dmp和nodes.dmp兩個(gè)文件直接cp到~/.taxonkit下睹欲,其余的.dmp也可一并cp到~/.taxonkit下

cp taxdump/* ~/.taxonkit

3?下載NCBI的csvtk軟件供炼,http://bioinf.shenwei.me/csvtk/download/,linux系統(tǒng)也是直接解壓窘疮,即可使用

4 (選擇性步驟)NCBI taxonomy數(shù)據(jù)庫(kù)下還有accession2taxid庫(kù)袋哼,這個(gè)庫(kù)里面也有蛋白以及核酸的accession以及對(duì)應(yīng)的分類id,但是經(jīng)過(guò)嘗試考余,采取這種方法提取的子庫(kù)序列往往出乎意料的少先嬉,很可能是該庫(kù)的accession與NT/NR庫(kù)的accession不一致轧苫,前者可能冗余更多楚堤,因此該方法可忽略疫蔓,見(jiàn)仁見(jiàn)智吧,下面給個(gè)例子身冬,例如:

#從taxonomy數(shù)據(jù)庫(kù)中的nucl_wgs.accession2taxid提取accession號(hào)

pigz -dc prot.accession2taxid.gz \

? ? | csvtk grep -t -f taxid -P $id.taxid.txt \

? ? | csvtk cut -t -f accession.version,taxid \

? ? | sed 1d \

? ? > $id.acc2taxid.txt

cut -f 1 $id.acc2taxid.txt > $id.acc.txt

5 查看衅胀,并提取動(dòng)物的taxid

grep -P "\|\s+[aA]nimal\w*\s*\|" ~/.taxonkit/names.dmp

33208

taxonkit list --ids 33208 --indent "" > $id.taxid.txt

6 從下載好的NT庫(kù)提取對(duì)應(yīng)的accession

blastdbcmd -db $NT -entry all -outfmt "%a %T" | csvtk grep -d ' ' -D ' ' -f 2 -P $id.taxid.txt \

? ? | cut -d ' '? -f 1 \

? ? > $id.acc.txt

7 從NT庫(kù)提取完整的nt序列,并提取子庫(kù)序列

blastdbcmd -db $NT -dbtype nucl -entry all -outfmt "%f" -out - | pigz -c > nt.fa.gz

time cat <(echo) <(pigz -dc nt.fa.gz) \

? ? | perl -e 'BEGIN{ $/ = "\n>"; <>; } while(<>){s/>$//;? $i = index $_, "\n"; $h = substr $_, 0, $i; $s = substr $_, $i+1; if ($h !~ />/) { print ">$_"; next; }; $h = ">$h"; while($h =~ />([^ ]+ .+?) ?(?=>|$)/g){ $h1 = $1; $h1 =~ s/^\W+//; print ">$h1\n$s";} } ' \

? ? | seqkit grep -f $id.acc.txt -o nt.$id.fa.gz

需要注意的是酥筝,這里又使用了seqkit軟件滚躯。這種從NT庫(kù)中還原的nt.fa序列里面有很多重復(fù)的頭文件,例如

所以使用的話嘿歌,還需要寫個(gè)perl把這些序列拆開(kāi)掸掏,最終形成nt.anmail.fa.gz

8 如果直接想構(gòu)建子庫(kù),那么沒(méi)必要搞序列宙帝,直接運(yùn)行

blastdb_aliastool -gilist $id.acc.txt -db $NT -out nt_animal -title nt_animal

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末丧凤,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子步脓,更是在濱河造成了極大的恐慌愿待,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件靴患,死亡現(xiàn)場(chǎng)離奇詭異仍侥,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)鸳君,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門农渊,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人或颊,你說(shuō)我怎么就攤上這事腿时。” “怎么了饭宾?”我有些...
    開(kāi)封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵批糟,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我看铆,道長(zhǎng)徽鼎,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任弹惦,我火速辦了婚禮否淤,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘棠隐。我一直安慰自己石抡,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布助泽。 她就那樣靜靜地躺著啰扛,像睡著了一般嚎京。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上隐解,一...
    開(kāi)封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天鞍帝,我揣著相機(jī)與錄音,去河邊找鬼煞茫。 笑死帕涌,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的续徽。 我是一名探鬼主播蚓曼,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼钦扭!你這毒婦竟也來(lái)了辟躏?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤土全,失蹤者是張志新(化名)和其女友劉穎捎琐,沒(méi)想到半個(gè)月后挺物,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體汹族,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年陡叠,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了概页。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片籽御。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖惰匙,靈堂內(nèi)的尸體忽然破棺而出技掏,到底是詐尸還是另有隱情,我是刑警寧澤项鬼,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布哑梳,位于F島的核電站,受9級(jí)特大地震影響绘盟,放射性物質(zhì)發(fā)生泄漏鸠真。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一龄毡、第九天 我趴在偏房一處隱蔽的房頂上張望吠卷。 院中可真熱鬧,春花似錦沦零、人聲如沸祭隔。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)疾渴。三九已至千贯,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間程奠,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工祭钉, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留瞄沙,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓慌核,卻偏偏與公主長(zhǎng)得像距境,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子垮卓,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容