挖掘多物種之間共有區(qū)塊
- 1.orthofinder 獲取 Orthogroups.tsv 文件
orthofinder -f 00.data/00.pep -og -o orthofinder
- 2.獲取物種之間的拷貝數(shù)(查文獻或ks分析)
- 3.獲取指定類型的gff文件
00.gff2wgdi2.py -i Arabidopsis_thaliana.gff -g temp1.gff -l temp2
awk -F"\t" '{print "Ath"$1"\t"$7"\t"$3"\t"$4}' temp1.gff > Arabidopsis_thaliana.gff
Ath1 AT1G01010.1 4706 5095
Ath1 AT1G01020.1 6915 7069
Ath1 AT1G01020.5 6915 7069
Ath1 AT1G01020.2 7315 7450
- 4.運行DRIMM
python processOrthofinder.py
#dir = "01.run"
#sp = ['Arabidopis_lyrata','Arabidopsis_thaliana','Capsella_rubella','Brassica_rapa','Thellungiella_Parvula']
#sp_ratio = [1,1,1,3,1]
mono drimm/processDrimm/drimm_Linux/Program.exe 01.run/drimm.sequence 01.run 20 7
# 20 控制同步塊連續(xù)性
# 7 是限制基因家族的大小抹剩,一般為幾個物種拷貝數(shù)之和
python processDrimm.py
#block_file = '01.run/blocks.txt'
#drimmSyntenyFile = '01.run/synteny.txt'
#outdir = '01.run'
#chr_number = [8,5,8,10,7]
#sp_list = ['Arabidopis_lyrata','Arabidopsis_thaliana','Capsella_rubella','Brassica_rapa','Thellungiella_Parvula']
#target_rate = '1:1:1:3:1'
- 5.結(jié)果文件
1.drimmBlocks
2.finalBlocks
得到的 species.block 文件中有很多數(shù)字(比如-126)表明當前block的ID為126贸伐,進行反向放置足删。每一行表示該物種的一條染色體(按照區(qū)塊劃分為很多部分)囤攀,而這些區(qū)塊在 species.synteny 和 species.synteny.genename 有所注釋憋沿。其中 species.synteny.genename 標注著當前區(qū)塊中有哪些基因熊尉;而 species.synteny 里面標注的都是區(qū)塊中基因的同源ID(若是相同表示同源)裸弦,因此在一個區(qū)塊內(nèi)的串連重復(fù)會出現(xiàn)連續(xù)相同的數(shù)字。
drimmBlocks這個文件夾下的區(qū)塊沒有經(jīng)過過濾(嚴格按照拷貝數(shù)過濾)楷掉,而 finalBlocks 嚴格按照拷貝數(shù)進行劃分厢蒜。因此 finalBlocks 劃分出來的區(qū)塊個數(shù)會很少。奇怪的是烹植,一個物種中定義的block不一定會在 species.synteny 得到全部注釋(可能在 species.block 有150個區(qū)塊斑鸦,在 species.synteny 中有147個區(qū)塊,這個問題可能是由于最長公共子序列算法產(chǎn)生的)
如果最后用于獲取祖先核型草雕,一般使用finalBlocks