目的:繪制腫瘤進(jìn)化的系統(tǒng)發(fā)育樹
參考文章
- 【官網(wǎng)】https://github.com/harbourlab/UPhyloplot2
- 參考:https://blog.csdn.net/qq_38774801/article/details/115921889
一嗦玖、簡(jiǎn)介
Uphyloplot2 從 CaSpER、HoneyBADGER 和 InferCNV 獲取輸入以生成進(jìn)化圖敞曹。請(qǐng)按照以下指南使用所有三個(gè)程序的輸入來可視化您的樹。你可以從這個(gè) github 頁面下載示例數(shù)據(jù)來測(cè)試程序
二噪沙、分析步驟
2.1 git克隆分析腳本
git clone https://github.com/harbourlab/uphyloplot2.git
2.2 inferCNV
要生成必要的文件掐场,inferCNV 需要與 HMM 一起運(yùn)行,并將 cluster_by_groups
設(shè)置為FALSE
, 以及 analysis_mode="subclusters"
晓锻,這將生成用于繪圖的“HMM_CNV_predictions.HMMi6.rand_trees.hmm_mode-subclusters.Pnorm_0.5.cell_groupings”等文件
infercnv_obj = infercnv::run(infercnv_obj,cutoff=1,out_dir="output_dir",cluster_by_groups=FALSE,plot_steps=T,scale_data=T,denoise=T,noise_filter=0.12,analysis_mode='subclusters',HMM_type='i6')
2.3 數(shù)據(jù)預(yù)處理
輸出結(jié)果有幾個(gè)文件在后面畫進(jìn)化樹會(huì)用到:
(畫進(jìn)化樹需要)17_HMM_predHMMi6.rand_trees.hmm_mode-subclusters.cell_groupings
包含了根據(jù)CNV分類的結(jié)果盅称,一共兩列肩祥,一列是類別名稱, 共8類缩膝,但是有一類是參考細(xì)胞混狠,所以要去掉參考,剩下7類疾层;另一列是細(xì)胞編號(hào)将饺。
去掉參考的行
sed '/^all_references/d' < 17_HMM_predHMMi6.rand_trees.hmm_mode-subclusters.cell_groupings > trimmed_infercnv.cell_groupings
(注釋進(jìn)化樹的分支)HMM_CNV_predictions.HMMi6.rand_trees.hmm_mode-subclusters.Pnorm_0.5.pred_cnv_regions.dat
# cell_group_name cnv_name state chr start end
# all_observations.all_observations.1.1.1.1 chr1-region_1 2 chr1 14363 145116922
# all_observations.all_observations.1.1.1.1 chr1-region_3 3 chr1 151264273 156182587
第一列是CNV所屬的group,第二列是CNV的name,唯一予弧;在"subclusters"模式下有7個(gè)group刮吧;4 5 6列包含CNV的坐標(biāo);
第三列表示狀態(tài):
State 1: 0x: complete loss
State 2: 0.5x: loss of one copy
State 3: 1x: neutral
State 4: 1.5x: addition of one copy
State 5: 2x: addition of two copies
State 6: 3x: essentially a placeholder for >2x copies but modeled as 3x
(注釋進(jìn)化樹的分支)HMM_CNV_predictions.HMMi6.rand_trees.hmm_mode-subclusters.Pnorm_0.5.pred_cnv_genes.dat
:
cell_group_name gene_region_name state gene chr start end
all_observations.all_observations.1.1.1.1 chr1-region_1 2 WASH7P chr1 14363 29806
all_observations.all_observations.1.1.1.1 chr1-region_1 2 LINC00115 chr1 14363 29806
第一列分組, 第二列為每一個(gè)CNV片段掖蛤,第三列是CNV狀態(tài)杀捻,第四列是基因,基因這一列是唯一的蚓庭,是上一個(gè)文件細(xì)化到基因?qū)用妗?/p>
2.4 繪圖
默認(rèn)程序計(jì)算一下各種CNV cluster的比例致讥,并剔除小于5%的cluster進(jìn)行繪圖
使用的時(shí)候,將主程序uphyloplot2.py
和文件夾Inputs
放在一起器赞,上面提到cell_groupings
文件放到Inputs
文件夾里面垢袱。UPhyloplot2 將生成一個(gè)“output.svg”矢量圖形圖。此外港柜,它將生成一個(gè)名為“CNV_files”的新文件夾请契,其中包含每個(gè)輸入的 CNV 文件,其中包含第 1 列中由 inferCNV 標(biāo)識(shí)的亞克隆 ID潘懊、第 2 列中每個(gè)亞克隆的細(xì)胞百分比以及標(biāo)記亞克隆的字母第 3 列中的 output.svg 文件姚糊。
$cd uphyloplot2-master
$python uphyloplot2.py
uphyloplot2 version 2.3
2.5 添加進(jìn)化樹分枝注釋
UPhyloplot2 不會(huì)識(shí)別每個(gè)亞克隆的特征 CNV 變化贿衍。如果需要授舟,必須從 inferCNV 輸出手動(dòng)推斷HMM_CNV_predictions.HMMi6.rand_trees.hmm_mode-subclusters.Pnorm_0.5.pred_cnv_regions.dat
文件中的每個(gè)子克隆 ID。
請(qǐng)注意贸辈,根據(jù)存在的子克隆释树,output.svg
文件的分支和子克隆圓圈可能會(huì)重疊。但是擎淤,它們可以使用 Adobe Illustrator 或任何其他 svg 編輯器手動(dòng)旋轉(zhuǎn)奢啥。
后面就不建議改源嗎加標(biāo)簽了,因?yàn)樵创a是一行行寫出SVG文件的嘴拢,根據(jù)注釋文件桩盲,用AI加上去可能還快一些