【數(shù)據(jù)庫】本地KEGG數(shù)據(jù)庫如何拆分子庫蜕径？

根據(jù)相似性原理叁扫，序列相似，功能相似陪腌，所有功能注釋無非是用比對(duì)工具將輸入序列比對(duì)到數(shù)據(jù)庫序列辱魁，再將輸入ID對(duì)應(yīng)數(shù)據(jù)庫ID，進(jìn)一步對(duì)應(yīng)到功能條目的關(guān)系诗鸭。

數(shù)據(jù)庫要么建到本地染簇，要么聯(lián)網(wǎng)調(diào)用API，一般的軟件或包做注釋都是通過聯(lián)網(wǎng)來獲得强岸，或者調(diào)用依賴的一些專門注釋的包（文件較大）锻弓。工業(yè)生產(chǎn)中，一般需要構(gòu)建本地?cái)?shù)據(jù)庫蝌箍。

如果不對(duì)原始數(shù)據(jù)庫按物種或其他分類來進(jìn)行拆分的話青灼，整個(gè)數(shù)據(jù)庫會(huì)很大，比對(duì)和注釋消耗的時(shí)間和資源都會(huì)很大妓盲，顯然不經(jīng)濟(jì)杂拨，而且也會(huì)有一些假陽性的結(jié)果。比如將人特有的功能比對(duì)到了小鼠上悯衬，客戶無法結(jié)果弹沽。所以分庫是很有必要的，只是怎么分以及分多大的問題。

KEGG本地庫文件

序列數(shù)據(jù)庫文件
如kegg_all_clean.fa

image.png
ko系列文件（ko與其他ID的對(duì)應(yīng)關(guān)系）策橘，ko與不同類型數(shù)據(jù)庫
我們這里要用到的是ko和geneID的對(duì)應(yīng)關(guān)系炸渡，其他數(shù)據(jù)庫類似

image.png

image.png

物種文件
misc下的taxonomy文件，按物種分庫的依據(jù)丽已。

image.png
map目錄蚌堵，通路圖。
每條通路有三個(gè)文件：png是通路圖沛婴，html是網(wǎng)頁通路吼畏，conf是通路的配置

image.png

conf文件內(nèi)容

image.png
map_title.tab文件，是通路的三個(gè)層級(jí)

image.png
ko_map.tab文件瘸味，是K與通路的全部物種對(duì)應(yīng)文件
是聯(lián)系注釋結(jié)果之間對(duì)應(yīng)關(guān)系的必需文件宫仗。

image.png
komap目錄下够挂，是各個(gè)物種（三個(gè)字母縮寫）的通路圖（png）及其配置（conf）旁仿，以及該物種對(duì)應(yīng)的通路。
如人的komap/hsa目錄：

image.png

當(dāng)然也可以不細(xì)分到單物種孽糖，可以劃分物種大類枯冈，如動(dòng)物、植物等办悟，相對(duì)應(yīng)地文件animal_ko_map.tab尘奏、plant_ko_map.tab

利用上面的這些文件，其實(shí)我們就可以進(jìn)行KEGG Pathway功能注釋了病蛉，即存在這樣的關(guān)系：蛋白——序列ID（基因）——K號(hào)——ko（pathway）——Level1-3——通路圖炫加。這樣得到的通路圖，都是map開頭铺然，即reference pathway俗孝；如果是物種特異通路，即ko開頭魄健，則用komap目錄結(jié)果赋铝。KEGG的5種通路類型等基礎(chǔ)知識(shí)這里不講，不懂可去查沽瘦。

如果要按物種進(jìn)行拆庫革骨，則需要將上面的文件都按物種進(jìn)行分類，使用是一樣的析恋。

KEGG數(shù)據(jù)庫非常龐大良哲，除了Pathway，genes等數(shù)據(jù)庫外助隧，還有很多其他的文件筑凫，比如：

links目錄，pathway與其他ID的對(duì)應(yīng)關(guān)系

image.png

如pathway_ko.list

image.png
ligand目錄，即配體數(shù)據(jù)庫漏健，不做介紹嚎货。

按物種拆分KEGG數(shù)據(jù)庫

1.獲得物種分類信息

按物種拆分可大可小：最大就是原始庫蔫浆，最小就是單一物種殖属，中間可以按不同分類來拆。關(guān)鍵取決于你的輸入序列是什么成分瓦盛，當(dāng)然不大不小恰好能全部包含是最理想的分庫結(jié)果洗显。比如taxonomy文件（misc目錄下）格式是：

image.png

我們可以按Eukaryotes、Animals原环、Vertebrates挠唆、Mammals中的任一個(gè)層級(jí)來分。也可以自定義分類嘱吗，將不同物種添加到一起進(jìn)行歸類玄组。

這里寫一個(gè)簡(jiǎn)單腳本來用上面文件中的第二層級(jí)物種來進(jìn)行數(shù)據(jù)庫分庫：

#!urs/bin/perl
open F , $ARGV[0];
while (<F>){
        chomp;
        if (/^## (.+)/){
            $spec=$1;
            open OUT, ">>$spec.specie.xls";
        }
        elsif (!/^#/){
            @aa=split/\t/,$_;
            print  OUT "$spec\t$aa[1]\t$aa[3]\n";
        }
    }

拆分后得到Animals.specie.xls、 Archaea.specie.xls谒麦、 Bacteria.specie.xls俄讹、 Fungi.specie.xls、 Plants.specie.xls绕德、 Protists.specie.xls等系列分類文件患膛。如Animals.specie.xls文件如下：

image.png

2.獲得物種分類的序列信息并建庫

從全部物種的原始序列數(shù)據(jù)庫中拆分出以上分類物種的序列，編寫如下get_fasta.pl腳本：

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;

unless(@ARGV>=2){
    print "perl $0 list.txt db.fa specie.fa\n";
    exit(1);
}
my %hash;
open L,"$ARGV[0]" or die "$!\n";
my %list;
while(<L>){
    chomp;
    my @aa=split/\t/,$_;
    $list{$aa[1]}='';
    }
close L;

my $num_need = scalar keys %list;
print("begin fetch $num_need sequence...\n");
open F,"$ARGV[1]" or die "$!\n";
my %seq;
while(<F>){
LINE:   #if(m/^>([^\|]+)/){
    if(/^>([^:]+):([^\s]+)/){
        chomp;
        my $acc = $1;
        my $line=$_;
        my $idd=$1.':'.$2;
        $hash{$idd}=$line;
        next unless exists $list{$acc};
        while(<F>){
            goto LINE if /^>/;
            s/[^a-z]//gsi;
            $seq{$idd} .= $_;
        }
        last;
    }
    elsif (/^>(12122[^\s]+)(.*)/){
        chomp;
        my $acc = $1;
                $hash{$1}=$_;
                next unless exists $list{$acc};
                while(<F>){
                        goto LINE if /^>/;
                        s/[^a-z]//gsi;
                        $seq{$acc} .= $_;
                }
                last;
        }
}
close F;
open O,">$ARGV[2]" or die "$!\n";
foreach my $acc (keys %seq){
        print O "$hash{$acc}\n$seq{$acc}\n";
    }
my $yesn = scalar keys %seq;
my $non = $num_need - $yesn;
if($non>=1){
    print "have $non sequence not found!\n";
}else{
    print "you have successfully got $yesn sequence!\n";
}
close O;

獲得分類后的序列：

perl get_fasta.pl Animals.specie.xls kegg_all_clean.fa animals.fa

獲得分類后的數(shù)據(jù)庫后耻蛇，可用blast/diamond等軟件進(jìn)行建庫踪蹬，以便進(jìn)行輸入序列的比對(duì)。

3.獲得物種分類的K-ko對(duì)應(yīng)文件

從全部物種的ko_map.tab文件（K與通路的對(duì)應(yīng)關(guān)系文件）中獲取物種分類后的子文件臣咖。編寫腳本get_species_komap.pl：

#!/usr/bin/perl
=pod
this script is subsplit species komap
perl $0  species.xls  ko_genes.list  ko_map.tab species_ko_map.tab
=cut
my $spe=shift;
my $ko_gene=shift;
my $ko_map=shift;
my $map=shift;

my (%spe,%ko);

open F,"<$spe";
while(<F>){
    chomp;
    my @F=split/\t/,$_;
    $spe{$F[1]}=1;
    }
close F;

open F,"<$ko_gene";
while(<F>){
    chomp;
    my @F=split/\t/,$_;
    my $ko=(split/:/,$F[0])[1];
    my $spe=(split/:/,$F[1])[0];
    if(exists $spe{$spe}){
            $ko{$ko}=1;
        }
    }
close F;
open F,"<$ko_map";
open O,">$map";
while(<F>){
    chomp;
    my @F=split/\t/,$_;
    if(exists ($ko{$F[0]})){
            print O "$_\n";
        }
    }
close F;
close O;

得到animal_ko_map.tab文件跃捣，其他分類物種也是類似。

拆分子庫后比對(duì)獲得該子庫中的功能信息亡哄，后續(xù)注釋的數(shù)據(jù)處理其實(shí)和不分庫時(shí)是一樣的枝缔，都是一些文本的格式轉(zhuǎn)換以及可視化。

比如我們可將KEGG數(shù)據(jù)庫拆分：動(dòng)物animal.fa蚊惯、植物plant.fa愿卸、真菌fungi.fa、真核eukaryotes.fa截型、原核prokaryote.fa趴荸、原生生物microorganism.fa，以及包含原核宦焦、真菌和原生生物三種組合的微生物庫other.fa发钝，除動(dòng)植物顿涣、真菌、原核酝豪、原生之外但在KEGG數(shù)據(jù)庫中的其他生物unknow.fa涛碑。

后面比對(duì)注釋時(shí)只需設(shè)置物種參數(shù)即可。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末孵淘，一起剝皮案震驚了整個(gè)濱河市蒲障，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌瘫证，老刑警劉巖揉阎，帶你破解...
沈念sama閱讀 216,372評(píng)論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異背捌，居然都是意外死亡毙籽，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門毡庆，熙熙樓的掌柜王于貴愁眉苦臉地迎上來坑赡，“玉大人，你說我怎么就攤上這事扭仁】逯裕” “怎么了厅翔？”我有些...
開封第一講書人閱讀 162,415評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵乖坠，是天一觀的道長(zhǎng)。經(jīng)常有香客問我刀闷，道長(zhǎng)熊泵，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,157評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任甸昏，我火速辦了婚禮顽分，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘施蜜。我一直安慰自己卒蘸，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,171評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布翻默。她就那樣靜靜地躺著缸沃，像睡著了一般。火紅的嫁衣襯著肌膚如雪修械。梳的紋絲不亂的頭發(fā)上趾牧，一...
開封第一講書人閱讀 51,125評(píng)論 1贊 297
城市分裂傳說
那天，我揣著相機(jī)與錄音肯污，去河邊找鬼翘单。笑死吨枉，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的哄芜。我是一名探鬼主播貌亭，決...
沈念sama閱讀 40,028評(píng)論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼认臊！你這毒婦竟也來了属提？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,887評(píng)論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤美尸，失蹤者是張志新（化名）和其女友劉穎冤议，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體师坎，經(jīng)...
沈念sama閱讀 45,310評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡恕酸，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,533評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了胯陋。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蕊温。...
茶點(diǎn)故事閱讀 39,690評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖遏乔，靈堂內(nèi)的尸體忽然破棺而出义矛，到底是詐尸還是另有隱情，我是刑警寧澤盟萨，帶...
沈念sama閱讀 35,411評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布凉翻，位于F島的核電站，受9級(jí)特大地震影響捻激，放射性物質(zhì)發(fā)生泄漏制轰。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,004評(píng)論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一胞谭、第九天我趴在偏房一處隱蔽的房頂上張望垃杖。院中可真熱鬧，春花似錦丈屹、人聲如沸调俘。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評(píng)論 0贊 22
一樁弒父案旺垒，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽彩库。三九已至，卻和暖如春袖牙，著一層夾襖步出監(jiān)牢的瞬間侧巨，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,812評(píng)論 1贊 268
情欲美人皮
我被黑心中介騙來泰國(guó)打工鞭达，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留司忱，地道東北人皇忿。一個(gè)月前我還...
沈念sama閱讀 47,693評(píng)論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像坦仍，于是被迫代替她去往敵國(guó)和親鳍烁。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,577評(píng)論 2贊 353