minimap2是我們在基因組分析過程常用的一種工具砖顷,但是它的參數(shù)很多很復雜贰锁,現(xiàn)在我將各項參數(shù)的內(nèi)容和用法進行解析赃梧。
Indexing:
-H: 使用同源聚合的k-mer(適用于PacBio數(shù)據(jù))
-k INT: k-mer的大小(不超過28)[默認值:15]
-w INT: minimizer窗口大小 [默認值:10]
-I NUM: 每個~NUM輸入堿基分割索引 [默認值:4G]
-d FILE: 將索引轉(zhuǎn)儲到文件中 []
Mapping:
-f FLOAT: 過濾掉頂部FLOAT比例的重復minimizer [默認值:0.0002]
-g NUM: 如果在INT-bp內(nèi)沒有minimizer豌熄,則停止鏈條延伸 [默認值:5000]
-G NUM: 最大內(nèi)含子長度(在-xsplice模式下有效授嘀;更改-r)[默認值:200k]
-F NUM: 最大片段長度(在-xsr模式下有效或片段模式中)[默認值:800]
-r NUM[,NUM]: 鏈接/比對帶寬和長連接帶寬 [默認值:500,20000]
-n INT: 在鏈條上的最小minimizer數(shù)量 [默認值:3]
-m INT: 最小鏈接分數(shù)(匹配堿基減去對數(shù)缺口懲罰)[默認值:40]
-X: 跳過自身和雙重比對(用于全對全模式)
-p FLOAT: 次要比對分數(shù)與主要比對分數(shù)的最小比例 [默認值:0.8]
-N INT: 最多保留INT個次要比對 [默認值:5]
Alignment:
-A INT: 匹配得分 [默認值:2]
-B INT: 不匹配的懲罰 [默認值:4]
-O INT[,INT]: 缺口開啟懲罰 [默認值:4,24]
-E INT[,INT]: 缺口擴展懲罰;k個長缺口的成本是min{O1+kE1,O2+kE2} [默認值:2,1]
-z INT[,INT]: Z-drop得分和反轉(zhuǎn)Z-drop得分 [默認值:400,200]
-s INT: 最小峰值DP比對得分 [默認值:80]
-u CHAR: 如何找到GT-AG锣险。f:轉(zhuǎn)錄本鏈蹄皱,b:兩條鏈,n:不匹配GT-AG [默認值:n]
Input/Output:
-a: 以SAM格式輸出(默認為PAF)
-o FILE: 將比對結(jié)果輸出到FILE中 [默認值:stdout]
-L: 在CG標簽中寫入具有>65535個操作的CIGAR
-R STR: SAM讀組行芯肤,格式如'@RG\tID:foo\tSM:bar' []
-c: 在PAF中輸出CIGAR
--cs[=STR]: 輸出cs標簽巷折;STR為'short'(如果省略)或'long' [默認值:none]
--MD: 輸出MD標簽
--eqx: 寫入=/X CIGAR操作符
-Y: 對于補充比對,使用軟剪輯
-t INT: 線程數(shù) [默認值:3]
-K NUM: 映射的迷你批次大小 [默認值:500M]
--version: 顯示版本號
Preset:
-x STR: 預設選項(總是在其他選項之前應用崖咨;詳見minimap2.1)[]
-map-pb/map-ont: PacBio CLR/Nanopore vs 參考基因組比對
-map-hifi: PacBio HiFi reads vs 參考基因組比對
-ava-pb/ava-ont: PacBio/Nanopore讀取重疊
-asm5/asm10/asm20: asm-to-ref比對锻拘,適用于約0.1/1/5%的序列差異
-splice/splice:hq: 長讀取/Pacbio-CCS剪接比對
-sr: 基因組短讀比對
實例(polish 第一步)
#將contig/scaffold序列比對到hifi測序的長序列
minimap2 -ax map-hifi -t 20 groups.asm.fasta .hifi_reads.bam.fasta.gz |samtools view -F 0x4 -b - |samtools sort - -m 2g -@ 20 -o genome.lgs.bam