PASA(2.4.1)使用記錄

文章僅是記錄自己的學(xué)習(xí)使用犬钢,有錯(cuò)誤請(qǐng)指出锭弊,我立刻改正!

官方說明:https://github.com/PASApipeline/PASApipeline/wiki

一、Conda安裝PASA

(一)軟件安裝

##conda環(huán)境##
conda create -n PASA
conda activate PASA
##PASA安裝##
conda install -c bioconda pasa
conda install -c bioconda samtools=1.9
conda install -c bioconda samtools openssl=1.0
conda install -c bioconda gmap=2018.03.25
#1胧辽、可以選擇不使用gmap(只使用blat),這樣就不用更新gmap公黑,gmap=2017.11.15和conda的環(huán)境有沖突邑商,會(huì)導(dǎo)致報(bào)錯(cuò)。

(二)配置文件

##編輯比對(duì)配置文件##
cd pasa_conf
cp pasa.alignAssembly.Template.txt alignAssembly.config
vi alignAssembly.config
DATABASE=/tmp/mydb.sqlite 
validate_alignments_in_db.dbi:--MIN_PERCENT_ALIGNED=80
validate_alignments_in_db.dbi:--MIN_AVG_PER_ID=80
 ##環(huán)境變量##
export PATH=/home/miniconda2/envs/PASA/bin:$PATH
export PATH=/home/miniconda2/envs/PASA/opt/pasa-2.4.1/bin:$PATH

二凡蚜、設(shè)置污染數(shù)據(jù)庫進(jìn)行過濾

##配置UniVec數(shù)據(jù)庫##
wget ftp://ftp.ncbi.nih.gov/pub/UniVec/UniVec
makeblastdb -in UniVec -dbtype nucl -parse_seqids -title UniVec -out UniVec
#1人断、UniVec是一個(gè)數(shù)據(jù)庫,可用于快速識(shí)別核酸序列中可能來自載體來源(載體污染)的片段。
#2朝蜘、formatdb和makeblastdb的效果一樣恶迈。

##通過污染數(shù)據(jù)庫進(jìn)行過濾##
tools=/home/miniconda2/envs/PASA/opt/pasa-2.4.1/bin
$tools/seqclean \
all_transcripts.fasta \
-v /home/PASA/UniVec
#1、輸出的all_transcripts.fasta.clean谱醇、all_transcripts.fasta.cln以及all_transcripts.fasta要在同一個(gè)文件夾里暇仲,否則后面運(yùn)行時(shí)會(huì)報(bào)錯(cuò)。
#2副渴、依據(jù)處理需求下載不同數(shù)據(jù)庫奈附,現(xiàn)在的NGS數(shù)據(jù)一般不需要過濾。

三煮剧、map到參考基因組(主程序)

pasa_dir=/home/miniconda2/envs/PASA/opt/pasa-2.4.1/bin
$pasa_dir/Launch_PASA_pipeline.pl \
-c alignAssembly.config \
-C -R \
-g genome_sample.fasta \
-t all_transcripts.fasta.clean \
-T -u all_transcripts.fasta \
--ALIGNERS blat,gmap --CPU 20
#1桅狠、--ALIGNERS調(diào)用的比對(duì)的軟件(gmap、blat)轿秧,可以單獨(dú)或一起使用中跌。
#2、如前面不進(jìn)行clean菇篡,直接對(duì)fasta文件進(jìn)行mapping漩符,則刪去-T -u參數(shù),將轉(zhuǎn)錄本文件放在-t參數(shù)后驱还。
#3嗜暴、二次調(diào)用主程序前,需要?jiǎng)h除數(shù)據(jù)庫文件或者修改配置文件中的數(shù)據(jù)庫名(DATABASE=/tmp/mydb.sqlite)议蟆。

(一)參數(shù)說明:

-c:設(shè)置比對(duì)配置文件闷沥,可以把配置文件放在自定義目錄下
-C :flag create MYSQL database
-R :flag run alignment/assembly pipeline
-g:設(shè)置基因組文件
-t:設(shè)置轉(zhuǎn)錄本過濾后的.clean文件
-T:flag,transcript db were trimmed using the TGI seqclean tool
-u :設(shè)置轉(zhuǎn)錄本文件
--MAX_INTRON_LENGTH /-I :GMAP or BLAT 所需的最大內(nèi)含子,默認(rèn)值為100000
--IMPORT_CUSTOM_ALIGNMENTS_GFF3:only using the alignments supplied in the corresponding GFF3 file

(二)輸出結(jié)果:

  • 使用blat/gmap將 all_transcripts.fasta 文件與基因組樣本.fasta 對(duì)齊咐容。生成的文件包括:
    'sample_mydb_pasa.validated_transcripts.gff3/gtf/bed':有效比對(duì)
    'sample_mydb_pasa.failed_gmap_alignments.gff3/gtf/bed':驗(yàn)證測(cè)試失敗的比對(duì)
    'alignment.validations.output':描述對(duì)齊驗(yàn)證結(jié)果舆逃,以制表符分隔

  • 根據(jù)基因組比對(duì)位置將正確的比對(duì)聚類,并使用 PASA 比對(duì)組裝器進(jìn)行裝配。生成的文件包括:
    'sample_mydb_pasa.assemblies.fasta':FASTA 格式的 PASA 裝配結(jié)果 'sample_mydb_pasa.pasa_assemblies.gff3/gtf/bed':PASA 裝配結(jié)構(gòu)結(jié)果
    'sample_mydb_pasa.pasa_alignment_assembly_building.ascii_illustrations.out':裝配程序集的描述以及它們是如何從底層轉(zhuǎn)錄本比對(duì)中構(gòu)建的

  • 'sample_mydb_pasa.pasa_assemblies_scribed.txt':制表符分隔的格式路狮,描述 PASA 裝配集的內(nèi)容虫啥,包括裝配到相應(yīng)結(jié)構(gòu)中的轉(zhuǎn)錄本

四、其他功能

(一)根據(jù)PASA結(jié)果提取ORF

pasa_dir= tools=/home/miniconda2/envs/PASA/opt/pasa-2.4.1
$pasa_dir/scripts/pasa_asmbls_to_training_set.dbi \
--pasa_transcripts_fasta sample_mydb.assemblies.fasta \
--pasa_transcripts_gff3 sample_mydb.pasa_assemblies.gff3
#1奄妨、要在運(yùn)行完主程序的文件夾下運(yùn)行涂籽,不然會(huì)產(chǎn)生報(bào)錯(cuò)。
#輸出結(jié)果:
#sample_mydb.assemblies.fasta.transdecoder.cds/pep/gff3/bed: ORF序列
#sample_mydb.assemblies.fasta.transdecoder.genome.bed/gff3: 預(yù)測(cè)產(chǎn)生的ORF對(duì)應(yīng)基因組的結(jié)構(gòu)文件

(二)基因組注釋提升

##檢查gff3文件與PASA 兼容性##
pasa_dir=/home/miniconda2/envs/PASA/opt/pasa-2.4.1/bin
perl $pasa_dir/misc_utilities/pasa_gff3_validator.pl orig_annotations_sample.gff3
#1砸抛、pasa_gff3_validator.pl 將顯示gff3 文件中pasa無法識(shí)別评雌、理解或無法正確加載的gene注釋信息行。
#2直焙、提交的gff3注釋文件中的每個(gè)基因必須有相應(yīng)的CDS序列柳骄。
#3、文件必須要是gff3格式箕般。

##加載gff3文件##
$pasa_dir/scripts/Load_Current_Gene_Annotations.dbi \
-c alignAssembly.config \
-g genome_sample.fasta \
 -P orig_annotations_sample.gff3

##比較注釋比較并更新的gff3文件##
$pasa_dir/Launch_PASA_pipeline.pl \
-c annotCompare.config -A \
-g genome_sample.fasta \
-t all_transcripts.fasta.clean \
--CPU 20
#1耐薯、-A compare to annotated genes。-R 用于比對(duì)transcripts 丝里, -A 用于和已有g(shù)ff3注釋文件的比較和更新曲初。
#2、PASA 將輸出一個(gè)新的 GFF3 文件杯聚,其中包含 PASA 更新版本的基因組注釋臼婆,包括 PASA 成功更新的那些基因模型,以及那些保持不變的基因模型幌绍。mysql_db.gene_structures_post_PASA_updates.pid.gff3(pid 是進(jìn)程 ID)        
#3颁褂、一個(gè)較完整gff3注釋文件通常需要至少兩輪的注釋加載、注釋比較和注釋更新傀广,才能最大程度地將轉(zhuǎn)錄本對(duì)齊并入基因結(jié)構(gòu)中颁独。
#4、alignAssembly.config文件伪冰。將 $PASAHOME/pasa_conf/pasa.annotationCompare.Template.txt 文件復(fù)制到工作目錄中作為“annotCompare.config”誓酒。然后,像之前一樣使用 alignAssembly.config 文件那樣將 MYSQLDB=< MYSQLDB> 替換為 MYSQLDB=/tmp/mydb.sqlite贮聂。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末靠柑,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子吓懈,更是在濱河造成了極大的恐慌歼冰,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件耻警,死亡現(xiàn)場(chǎng)離奇詭異隔嫡,居然都是意外死亡甸怕,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門畔勤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人扒磁,你說我怎么就攤上這事庆揪。” “怎么了妨托?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵缸榛,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我兰伤,道長(zhǎng)内颗,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任敦腔,我火速辦了婚禮均澳,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘符衔。我一直安慰自己找前,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布判族。 她就那樣靜靜地躺著躺盛,像睡著了一般。 火紅的嫁衣襯著肌膚如雪形帮。 梳的紋絲不亂的頭發(fā)上槽惫,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音辩撑,去河邊找鬼界斜。 笑死,一個(gè)胖子當(dāng)著我的面吹牛合冀,可吹牛的內(nèi)容都是我干的锄蹂。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼水慨,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼得糜!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起晰洒,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤朝抖,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后谍珊,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體治宣,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了侮邀。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片坏怪。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖绊茧,靈堂內(nèi)的尸體忽然破棺而出铝宵,到底是詐尸還是另有隱情,我是刑警寧澤华畏,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布鹏秋,位于F島的核電站,受9級(jí)特大地震影響亡笑,放射性物質(zhì)發(fā)生泄漏侣夷。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一仑乌、第九天 我趴在偏房一處隱蔽的房頂上張望百拓。 院中可真熱鬧,春花似錦晰甚、人聲如沸耐版。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽粪牲。三九已至,卻和暖如春止剖,著一層夾襖步出監(jiān)牢的瞬間腺阳,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來泰國(guó)打工穿香, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留亭引,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓皮获,卻偏偏與公主長(zhǎng)得像焙蚓,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子洒宝,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容