InterProScan 最強基因功能注釋軟件 - 最簡流程代碼

參考官方文檔绣夺,目前 Interproscan 本地版幾乎免安裝膊毁,自帶數(shù)據(jù)庫枝恋,使用簡單。

下載與安裝

跳轉(zhuǎn)到軟件放置目錄

cd /home/public/tools
wget https://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.61-93.0/interproscan-5.61-93.0-64-bit.tar.gz
tar -pxvzf interproscan-5.61-93.0-*-bit.tar.gz
cd interproscan-5.61-93.0
export PATH=`pwd`:$PATH

注意到軟件依賴 Java11 或者以上

export PATH=/home/public/tools/jdk-17.0.1/bin:$PATH

使用軟件

mkdir anno.dir

蛋白序列

interproscan.sh -cpu 40 -d anno.dir -dp -i protein.fa

核酸序列

interproscan.sh -cpu 40 -d anno.dir -dp -t n -i transcripts.fa

幾個參數(shù):

-cpu 線程數(shù)
-d 輸出目錄
-dp 不使用已有計算結(jié)果(似乎是需要聯(lián)網(wǎng)义锥?)
-i 用于注釋的序列

報錯與解決

很遺憾,按照上述操作,可能會遇到一些報錯。多數(shù)情況是一些路徑或者軟件版本問題碉熄,比如 JDK 。但如果是 系統(tǒng)庫 的問題肋拔,那么升級系統(tǒng)函數(shù)庫可能會導(dǎo)致其他已有軟件出問題锈津。conda 估計解決不了。但是解決辦法是有的凉蜂,那么就是不要用最新的 Interproscan 軟件琼梆。我退回低版本就可以正常運行了。
報錯如下

Error output from binary:
bin/prosite/pfsearchV3: /lib64/libm.so.6: version `GLIBC_2.27' not found (required by bin/prosite/pfsearchV3)
Error running prosite binary bin/prosite/pfsearchV3

大概率就是系統(tǒng)函數(shù)庫沒升級窿吩,使用舊版本 Interproscan 就好了

aria2c -j 10 https://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.47-82.0/interproscan-5.47-82.0-64-bit.tar.gz
tar -zxvf interproscan-5.47-82.0-64-bit.tar.gz
cd interproscan-5.47-82.0
python initial_setup.py -f interproscan.properties
mkdir anno.dir
./interproscan.sh  -cpu 10 -d anno.dir -dp -t n -i  test_nt_seqs.fasta
# 搞定
# python --version
#Python 3.9.12

另外茎杂,發(fā)現(xiàn)如果確實數(shù)據(jù)太多,比如10+w纫雁,似乎...需要分隔一下文件煌往,每次不要超過 12000,邏輯上如果是轉(zhuǎn)錄本先较,那么考慮直接用 transdecoder 等軟件轉(zhuǎn)換為蛋白序列文件

mkdir anno.dir
./interproscan.sh  -cpu 60  -d anno.dir -dp -t n -i transcripts.fa

直接分隔文件

seqkit fx2tab transcripts.fa > transcripts.tab
split -l 10000 transcripts.tab part.
# 轉(zhuǎn)換會 seq
ls part.a*|while read file;do seqkit tab2fx $file > $file.fa;done
ls part.a*.fa|while read file;do perl -i -lpe 's/(^>\S+)\s*.*$/$1/' $file;done

重新開始注釋

export PATH=/home/public/tools/jdk-17.0.1/bin:$PATH
mkdir part.aa.fa.anno.dir
./interproscan-5.47-82.0/interproscan.sh  -cpu 60  -d part.aa.fa.anno.dir -dp -t n -i part.aa.fa
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末携冤,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子闲勺,更是在濱河造成了極大的恐慌曾棕,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,194評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件菜循,死亡現(xiàn)場離奇詭異翘地,居然都是意外死亡,警方通過查閱死者的電腦和手機癌幕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評論 2 385
  • 文/潘曉璐 我一進店門衙耕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人勺远,你說我怎么就攤上這事橙喘。” “怎么了胶逢?”我有些...
    開封第一講書人閱讀 156,780評論 0 346
  • 文/不壞的土叔 我叫張陵厅瞎,是天一觀的道長。 經(jīng)常有香客問我初坠,道長和簸,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,388評論 1 283
  • 正文 為了忘掉前任碟刺,我火速辦了婚禮锁保,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己爽柒,他們只是感情好吴菠,可當(dāng)我...
    茶點故事閱讀 65,430評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著霉赡,像睡著了一般橄务。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上穴亏,一...
    開封第一講書人閱讀 49,764評論 1 290
  • 那天蜂挪,我揣著相機與錄音,去河邊找鬼嗓化。 笑死棠涮,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的刺覆。 我是一名探鬼主播严肪,決...
    沈念sama閱讀 38,907評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼谦屑!你這毒婦竟也來了驳糯?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,679評論 0 266
  • 序言:老撾萬榮一對情侶失蹤氢橙,失蹤者是張志新(化名)和其女友劉穎酝枢,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體悍手,經(jīng)...
    沈念sama閱讀 44,122評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡帘睦,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,459評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了坦康。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片竣付。...
    茶點故事閱讀 38,605評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖滞欠,靈堂內(nèi)的尸體忽然破棺而出古胆,到底是詐尸還是另有隱情,我是刑警寧澤筛璧,帶...
    沈念sama閱讀 34,270評論 4 329
  • 正文 年R本政府宣布赤兴,位于F島的核電站,受9級特大地震影響隧哮,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜座舍,卻給世界環(huán)境...
    茶點故事閱讀 39,867評論 3 312
  • 文/蒙蒙 一沮翔、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦采蚀、人聲如沸疲牵。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽纲爸。三九已至,卻和暖如春妆够,著一層夾襖步出監(jiān)牢的瞬間识啦,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評論 1 265
  • 我被黑心中介騙來泰國打工神妹, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留颓哮,地道東北人。 一個月前我還...
    沈念sama閱讀 46,297評論 2 360
  • 正文 我出身青樓鸵荠,卻偏偏與公主長得像冕茅,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子蛹找,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,472評論 2 348

推薦閱讀更多精彩內(nèi)容

  • 根據(jù)已有的蛋白庫姨伤,對從基因組上提取到的蛋白序列進行比對,從而獲得相應(yīng)的信息庸疾。 常用的數(shù)據(jù)庫: Nr:NCBI官方非...
    斬毛毛閱讀 19,735評論 10 41
  • 基因功能的注釋依賴于上一步的基因結(jié)構(gòu)預(yù)測乍楚,根據(jù)預(yù)測結(jié)果從基因組上提取翻譯后的 蛋白序列 和主流的數(shù)據(jù)庫進行比對,完...
    xuzhougeng閱讀 9,476評論 2 31
  • 基因功能注釋軟件 InterproScan InterProScan 是 EBI 開發(fā)的一個集成了蛋白質(zhì)結(jié)構(gòu)域和功...
    shannonnana閱讀 2,925評論 2 2
  • 基因組組裝完成后彼硫,或者是完成了草圖炊豪,就不可避免遇到一個問題,需要對基因組序列進行注釋拧篮。注釋之前首先得構(gòu)建基因模型词渤,...
    xuzhougeng閱讀 50,563評論 11 184
  • 目錄寫在前面功能注釋數(shù)據(jù)庫介紹方法一: 以KEGG的注釋結(jié)果為主, 篩選出每個品種包含的特異通路及基因方法二: 利...
    bioinfo_boy閱讀 11,863評論 2 37