?????? 我們經(jīng)常困惑于多少的Hi-C數(shù)據(jù)才可以滿足分析的要求,一般認(rèn)為分析A/B compartment 至少需要達(dá)到100kb的分辨率愕撰,TADs至少需要達(dá)到40kb分辨率刹衫,loops至少需要達(dá)到10kb的分辨率。根據(jù)(Rao et al.,2014)的研究表明判斷數(shù)據(jù)是否達(dá)到該分辨率的一個(gè)標(biāo)準(zhǔn)是在該分辨率下若80%的bin有>1000條reads覆蓋即說(shuō)明達(dá)到了該分辨率搞挣。值得注意的是這里用reads計(jì)算而不是fragements带迟,每個(gè)有效互作應(yīng)由一對(duì)reads進(jìn)行確定。下面是計(jì)算過(guò)程和結(jié)果囱桨,輸入文件為HiC-Pro得到的matrix矩陣和abs.bed文件仓犬。
for i in {10000,20000,40000,150000,500000};
do
valid_bin=`awk 'BEGIN{PROCINFO["sorted_in"] = "@ind_num_asc"}{fline[$1]+=$3;sline[$2]+=$3}END{for(i in fline)print fline[i]+sline[i]}' sample1_${i}.matrix | awk '$1>1000{valid++}END{print valid}'`
total_bin=`wc -l sample1_${i}_abs.bed |cut -d " " -f 1`
awk -v valid_bin=$valid_bin -v total_bin=$total_bin 'BEGIN{print "'$i'",valid_bin/total_bin}'
done
腳本運(yùn)行結(jié)果: