1. 寫在前面
2. replicates
- 2 個及以上生物學重復
- 對于無法做生物學重復的樣本至少 2 技術(shù)重復
3. 總 reads 數(shù)
- 單端 25 百萬
- 雙端 50 百萬
- 去重翰舌、去線粒體
4. 比對率
5. IDR 計算重復情況
6. 文庫復雜度
7. peak 數(shù)量
- The number of peaks within a replicated peak file should be >150,000, though values >100,000 may be acceptable.
- The number of peaks within an IDR peak file should be >70,000, though values >50,000 may be acceptable.
8. nucleosome free region (NFR)
9. 插入片段長度統(tǒng)計(單核小體峰)
- 標準:在 147bp 以上饮醇,147*2bp 以下處有峰
- 首先從 bam 文件中抓取插入片段長度信息
cd align/
samtools view WT.last.bam|cut -f9>wt_insert_length.txt
a=read.table("wt_insert_length.txt")
hist(abs(a[,1])))
- 數(shù)據(jù)質(zhì)量不佳,200bp 的峰不夠顯著
10. 計算 FRiP 值
- 全稱 Fraction of reads in peaks秕豫,即位于 peak 坐標范圍內(nèi)的 reads 占總 reads 的比例
- 標準:FRiP >0.3朴艰,可以低至 0.2
- 通過 shell 腳本計算
cd callpeaks/
ls *narrowPeak|while read id;
do
echo $id
bed=../bed/$(basename $id "_peaks.narrowPeak").bed
ls -lh $bed
# a中哪些在b中
ReadsinPeaks=$(bedtools intersect -a $bed -b $id|wc -l|awk '{print $1}')
totalReads=$(wc -l $bed|awk '{print $1}')
echo $ReadsinPeaks $totalReads
echo 'FRiP:' $(bc <<< "scale=2;100*$ReadsinPeaks/$totalReads")'%'
done
- 輸出
- 3391770 25099448 FRiP: 13.51%
- 7779551 30565190 FRiP: 25.45%
- 視頻中 Jimmy 老師認為應該使用去重和去線粒體之前的 bam 轉(zhuǎn)出來的 bed 來計算 FRiP,這個有待進一步考證
11. TSS 富集程度
- 在衡量背景噪音水平上比 FRiP 更關鍵
- 標準:
- 教程待補充
友情宣傳