前言
廣告時(shí)間:覺得推文有用的霎肯,可以看下我的個(gè)人簡(jiǎn)介钾菊,關(guān)注下~
今天的腳本純粹是練習(xí)下perl的操作符了骂维,因?yàn)槲視簳r(shí)還不知道將這個(gè)流程能鑲嵌到哪里蚌父。
將一個(gè)“gene” ID 與多個(gè)GO ID 轉(zhuǎn)換為一行一個(gè)“gene” ID與一個(gè)GO ID哮兰,用perl腳本實(shí)現(xiàn)。但是只做格式整理苟弛,總覺得差點(diǎn)什么喝滞,所以用TBtools的功能“GO Term Parse”,當(dāng)然膏秫,這部分功能我還不會(huì)用perl腳本直接實(shí)現(xiàn)右遭。
這里用的輸入文件為Trinotate注釋的結(jié)果文件Trinotate.xls.gene_ontology
。
內(nèi)容式這個(gè)樣子的缤削,兩列直接以制表符
分割窘哈。
格式.png
腳本運(yùn)行
運(yùn)行腳本
perl goID_one_per_line.pl Trinotate.xls.gene_ontology one_per_line.txt
檢查結(jié)果GO ID數(shù)目是否與原文件相同
#檢查結(jié)果文件one_per_line.txt 種GO ID數(shù)
wc -l one_per_line.txt
#檢查輸入文件Trinotate.xls.gene_ontology的 GO ID數(shù)
grep -o 'GO:' Trinotate.xls.gene_ontology | wc -l
結(jié)果文件one_per_line.txt
內(nèi)容展示
one_per_line.png
腳本代碼
#!/usr/bin/perl -w
# Name:goID_one_per_line.pl
# Usage:
# perl goID_one_per_line.pl input_file output_file
use strict;
my $usage = "\nUsage:\nperl $0 input_file output_file\n";
die $usage unless @ARGV == 2;
open GO,'<',"$ARGV[0]" || die $usage;
open OUT,'>',"$ARGV[1]" || die $usage;
while(<GO>){
next if /^\s+$/; #為什么要位于"chomp;"行前呢?
chomp;
my ($seqid,$goid) = split /\t/,$_;
#print "$seqid\n";
#print "$goid\n";
my @goid = split /,/,$goid;
while (<@goid>){ #非空為真亭敢,空為假滚婉;while為循環(huán),if不是循環(huán)帅刀。
my $one_goid = shift @goid; #注意理解此時(shí)$one_goid 與@goid內(nèi)容让腹。
print OUT "$seqid\t$one_goid\n";
}
}
close GO;
close OUT;
使用TBtools實(shí)現(xiàn)go2term
打開TBtools的GO Term Parse
功能
go term parse.png
TBtools過程.png
結(jié)果文件如下:
兩個(gè)結(jié)果文件內(nèi)容相同,就是列的位置不同扣溺。如果結(jié)果文件過大骇窍,excel可能無法直接打開,可以使用vscode
或者TBtools
的Big File Previewer
功能打開锥余。
結(jié)果文件.png
其中結(jié)果文件one_per_line.txt.Parsed.Gene2Go.xls
部分內(nèi)容如下
go2term結(jié)果.png
總結(jié)
- 代碼的理解上
next if /^\s+$/; #為什么要位于chomp;行前呢腹纳?
chomp;
代碼第16行的匹配理解還是不夠,暫時(shí)不是很明白為什么第16、17行不能調(diào)換位置嘲恍。
- while是循環(huán)足画,但if不是。循環(huán)在@goid中取值時(shí)第一次寫成了if蛔钙。