PASA（2.4.1）使用記錄

文章僅是記錄自己的學(xué)習(xí)使用犬钢，有錯(cuò)誤請(qǐng)指出锭弊，我立刻改正！

官方說明：https://github.com/PASApipeline/PASApipeline/wiki

一、Conda安裝PASA

（一）軟件安裝

##conda環(huán)境##
conda create -n PASA
conda activate PASA
##PASA安裝##
conda install -c bioconda pasa
conda install -c bioconda samtools=1.9
conda install -c bioconda samtools openssl=1.0
conda install -c bioconda gmap=2018.03.25
#1胧辽、可以選擇不使用gmap（只使用blat），這樣就不用更新gmap公黑，gmap=2017.11.15和conda的環(huán)境有沖突邑商，會(huì)導(dǎo)致報(bào)錯(cuò)。

（二）配置文件

##編輯比對(duì)配置文件##
cd pasa_conf
cp pasa.alignAssembly.Template.txt alignAssembly.config
vi alignAssembly.config
DATABASE=/tmp/mydb.sqlite 
validate_alignments_in_db.dbi:--MIN_PERCENT_ALIGNED=80
validate_alignments_in_db.dbi:--MIN_AVG_PER_ID=80
 ##環(huán)境變量##
export PATH=/home/miniconda2/envs/PASA/bin:$PATH
export PATH=/home/miniconda2/envs/PASA/opt/pasa-2.4.1/bin:$PATH

二凡蚜、設(shè)置污染數(shù)據(jù)庫進(jìn)行過濾

##配置UniVec數(shù)據(jù)庫##
wget ftp://ftp.ncbi.nih.gov/pub/UniVec/UniVec
makeblastdb -in UniVec -dbtype nucl -parse_seqids -title UniVec -out UniVec
#1人断、UniVec是一個(gè)數(shù)據(jù)庫,可用于快速識(shí)別核酸序列中可能來自載體來源(載體污染)的片段。
#2朝蜘、formatdb和makeblastdb的效果一樣恶迈。

##通過污染數(shù)據(jù)庫進(jìn)行過濾##
tools=/home/miniconda2/envs/PASA/opt/pasa-2.4.1/bin
$tools/seqclean \
all_transcripts.fasta \
-v /home/PASA/UniVec
#1、輸出的all_transcripts.fasta.clean谱醇、all_transcripts.fasta.cln以及all_transcripts.fasta要在同一個(gè)文件夾里暇仲，否則后面運(yùn)行時(shí)會(huì)報(bào)錯(cuò)。
#2副渴、依據(jù)處理需求下載不同數(shù)據(jù)庫奈附，現(xiàn)在的NGS數(shù)據(jù)一般不需要過濾。

三煮剧、map到參考基因組（主程序）

pasa_dir=/home/miniconda2/envs/PASA/opt/pasa-2.4.1/bin
$pasa_dir/Launch_PASA_pipeline.pl \
-c alignAssembly.config \
-C -R \
-g genome_sample.fasta \
-t all_transcripts.fasta.clean \
-T -u all_transcripts.fasta \
--ALIGNERS blat,gmap --CPU 20
#1桅狠、--ALIGNERS調(diào)用的比對(duì)的軟件（gmap、blat）轿秧，可以單獨(dú)或一起使用中跌。
#2、如前面不進(jìn)行clean菇篡，直接對(duì)fasta文件進(jìn)行mapping漩符，則刪去-T -u參數(shù)，將轉(zhuǎn)錄本文件放在-t參數(shù)后驱还。
#3嗜暴、二次調(diào)用主程序前，需要?jiǎng)h除數(shù)據(jù)庫文件或者修改配置文件中的數(shù)據(jù)庫名（DATABASE=/tmp/mydb.sqlite）议蟆。

（一）參數(shù)說明：

-c：設(shè)置比對(duì)配置文件闷沥，可以把配置文件放在自定義目錄下
-C ：flag create MYSQL database
-R ：flag run alignment/assembly pipeline
-g：設(shè)置基因組文件
-t：設(shè)置轉(zhuǎn)錄本過濾后的.clean文件
-T：flag,transcript db were trimmed using the TGI seqclean tool
-u ：設(shè)置轉(zhuǎn)錄本文件
--MAX_INTRON_LENGTH /-I ：GMAP or BLAT 所需的最大內(nèi)含子，默認(rèn)值為100000
--IMPORT_CUSTOM_ALIGNMENTS_GFF3：only using the alignments supplied in the corresponding GFF3 file

（二）輸出結(jié)果：

使用blat/gmap將 all_transcripts.fasta 文件與基因組樣本.fasta 對(duì)齊咐容。生成的文件包括：
'sample_mydb_pasa.validated_transcripts.gff3/gtf/bed'：有效比對(duì)
'sample_mydb_pasa.failed_gmap_alignments.gff3/gtf/bed'：驗(yàn)證測(cè)試失敗的比對(duì)
'alignment.validations.output'：描述對(duì)齊驗(yàn)證結(jié)果舆逃，以制表符分隔
根據(jù)基因組比對(duì)位置將正確的比對(duì)聚類，并使用 PASA 比對(duì)組裝器進(jìn)行裝配。生成的文件包括：
'sample_mydb_pasa.assemblies.fasta'：FASTA 格式的 PASA 裝配結(jié)果 'sample_mydb_pasa.pasa_assemblies.gff3/gtf/bed'：PASA 裝配結(jié)構(gòu)結(jié)果
'sample_mydb_pasa.pasa_alignment_assembly_building.ascii_illustrations.out'：裝配程序集的描述以及它們是如何從底層轉(zhuǎn)錄本比對(duì)中構(gòu)建的
'sample_mydb_pasa.pasa_assemblies_scribed.txt'：制表符分隔的格式路狮，描述 PASA 裝配集的內(nèi)容虫啥，包括裝配到相應(yīng)結(jié)構(gòu)中的轉(zhuǎn)錄本

四、其他功能

（一）根據(jù)PASA結(jié)果提取ORF

pasa_dir= tools=/home/miniconda2/envs/PASA/opt/pasa-2.4.1
$pasa_dir/scripts/pasa_asmbls_to_training_set.dbi \
--pasa_transcripts_fasta sample_mydb.assemblies.fasta \
--pasa_transcripts_gff3 sample_mydb.pasa_assemblies.gff3
#1奄妨、要在運(yùn)行完主程序的文件夾下運(yùn)行涂籽，不然會(huì)產(chǎn)生報(bào)錯(cuò)。
#輸出結(jié)果：
#sample_mydb.assemblies.fasta.transdecoder.cds/pep/gff3/bed: ORF序列
#sample_mydb.assemblies.fasta.transdecoder.genome.bed/gff3: 預(yù)測(cè)產(chǎn)生的ORF對(duì)應(yīng)基因組的結(jié)構(gòu)文件

（二）基因組注釋提升

##檢查gff3文件與PASA 兼容性##
pasa_dir=/home/miniconda2/envs/PASA/opt/pasa-2.4.1/bin
perl $pasa_dir/misc_utilities/pasa_gff3_validator.pl orig_annotations_sample.gff3
#1砸抛、pasa_gff3_validator.pl 將顯示gff3 文件中pasa無法識(shí)別评雌、理解或無法正確加載的gene注釋信息行。
#2直焙、提交的gff3注釋文件中的每個(gè)基因必須有相應(yīng)的CDS序列柳骄。
#3、文件必須要是gff3格式箕般。

##加載gff3文件##
$pasa_dir/scripts/Load_Current_Gene_Annotations.dbi \
-c alignAssembly.config \
-g genome_sample.fasta \
 -P orig_annotations_sample.gff3

##比較注釋比較并更新的gff3文件##
$pasa_dir/Launch_PASA_pipeline.pl \
-c annotCompare.config -A \
-g genome_sample.fasta \
-t all_transcripts.fasta.clean \
--CPU 20
#1耐薯、-A compare to annotated genes。-R 用于比對(duì)transcripts 丝里， -A 用于和已有g(shù)ff3注釋文件的比較和更新曲初。
#2、PASA 將輸出一個(gè)新的 GFF3 文件杯聚，其中包含 PASA 更新版本的基因組注釋臼婆，包括 PASA 成功更新的那些基因模型，以及那些保持不變的基因模型幌绍。mysql_db.gene_structures_post_PASA_updates.pid.gff3（pid 是進(jìn)程 ID）        
#3颁褂、一個(gè)較完整gff3注釋文件通常需要至少兩輪的注釋加載、注釋比較和注釋更新傀广，才能最大程度地將轉(zhuǎn)錄本對(duì)齊并入基因結(jié)構(gòu)中颁独。
#4、alignAssembly.config文件伪冰。將 $PASAHOME/pasa_conf/pasa.annotationCompare.Template.txt 文件復(fù)制到工作目錄中作為“annotCompare.config”誓酒。然后，像之前一樣使用 alignAssembly.config 文件那樣將 MYSQLDB=< MYSQLDB> 替換為 MYSQLDB=/tmp/mydb.sqlite贮聂。

最后編輯于：2022.08.17 21:57:01

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末靠柑，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子吓懈，更是在濱河造成了極大的恐慌歼冰，老刑警劉巖，帶你破解...
沈念sama閱讀 206,126評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件耻警，死亡現(xiàn)場(chǎng)離奇詭異隔嫡，居然都是意外死亡甸怕，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門畔勤，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人扒磁，你說我怎么就攤上這事庆揪。” “怎么了妨托？”我有些...
開封第一講書人閱讀 152,445評(píng)論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵缸榛，是天一觀的道長(zhǎng)。經(jīng)常有香客問我兰伤，道長(zhǎng)内颗，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,185評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任敦腔，我火速辦了婚禮均澳，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘符衔。我一直安慰自己找前，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,178評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布判族。她就那樣靜靜地躺著躺盛，像睡著了一般。火紅的嫁衣襯著肌膚如雪形帮。梳的紋絲不亂的頭發(fā)上槽惫，一...
開封第一講書人閱讀 48,970評(píng)論 1贊 284
城市分裂傳說
那天，我揣著相機(jī)與錄音辩撑，去河邊找鬼界斜。笑死，一個(gè)胖子當(dāng)著我的面吹牛合冀，可吹牛的內(nèi)容都是我干的锄蹂。我是一名探鬼主播，決...
沈念sama閱讀 38,276評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼水慨，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼得糜！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起晰洒，我...
開封第一講書人閱讀 36,927評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤朝抖，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后谍珊，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體治宣，經(jīng)...
沈念sama閱讀 43,400評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,883評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了侮邀。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片坏怪。...
茶點(diǎn)故事閱讀 37,997評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖绊茧，靈堂內(nèi)的尸體忽然破棺而出铝宵，到底是詐尸還是另有隱情，我是刑警寧澤华畏，帶...
沈念sama閱讀 33,646評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布鹏秋，位于F島的核電站，受9級(jí)特大地震影響亡笑，放射性物質(zhì)發(fā)生泄漏侣夷。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,213評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一仑乌、第九天我趴在偏房一處隱蔽的房頂上張望百拓。院中可真熱鬧，春花似錦晰甚、人聲如沸耐版。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評(píng)論 0贊 19
一樁弒父案压汪，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽粪牲。三九已至，卻和暖如春止剖，著一層夾襖步出監(jiān)牢的瞬間腺阳，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,423評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來泰國(guó)打工穿香，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留亭引，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,423評(píng)論 2贊 352
代替公主和親
正文我出身青樓皮获，卻偏偏與公主長(zhǎng)得像焙蚓，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子洒宝，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,722評(píng)論 2贊 345