? 本次實戰(zhàn)我采用的是B站某教程上的擬南芥數(shù)據(jù)石景,教程鏈接:https://www.bilibili.com/video/BV1KJ411p7WN?p=1
構建項目目錄饱狂,并導入文件
00ref中的gtf注釋文件信息和fasta參考基因文件通孽,可以用wget命令在數(shù)據(jù)庫中下載? 擬南芥注釋信息鏈接
另外要檢測數(shù)據(jù)的完整性,即md5值定庵。
? ? 給自己的文件生成md5值:【md5sum *gz > md5.txt】
? ? 比對已有的md5值:【md5sum -c md5.txt】程序顯示的結果為OK
FastQC安裝及運行
安裝:
conda install fastqc
運行:
fastqc sample1 R1. fastq. gz #處理一個文件
-
fastqc sample1 R1. fastq. gz? sample1 R2. fastq. gz sample2 R1. fastq. gz sample2 R2. fastq. gz #批量處理多個文件
fastqc sample * gz? #批量處理多個文件
運行完產生的. html文件可以在網(wǎng)頁中打開议谷,即生成的報告
推薦:可以用winscp軟件,直接把文件拖動到桌面上憋活。
FastQC報告:
綠色表示質量好岂津,黃色一般,紅色較差悦即。柱狀是25%~75%區(qū)間質量分布吮成,error bar是10%~90%區(qū)間質量分布,藍線表示平均數(shù)辜梳。
藍色表示測序質量很高粱甫,暖色表示測序質量不高(此圖是練習數(shù)據(jù)生成的圖,長度短作瞄,質量高)
縱軸表示每個值對應的read數(shù)目茶宵,當測序結果為一個單一的高峰,表明測序質量良
四種顏色的線分別表示不同類型的堿基成分含量宗挥。圖中read1-19均為不合格的結果乌庶,四條線平行則表明質量結果較好
藍色為程序根據(jù)經驗分布給出的理論值,紅色是真實值契耿。若出現(xiàn)紅線雙峰瞒大,表明樣品不純,混入了其他DNA搪桂。
當出現(xiàn)測序儀不能分辨的堿基時會產生N透敌,橫軸為堿基分布,縱軸為N比率,當任一位置N的比率超過5%報WARN酗电,超過20%報FAIL淌山。
一般在切割RNA時的長度都在150堿基左右。
圖中標紅的部分“TruSeq Adapter”作為接頭在trimmomatic中會用到顾瞻。
通過的結果是不含接頭。若有adapter殘留德绿,后續(xù)必須去接頭【trimmomatic】荷荤。
以上就是質量評估FastQC及結果分析的全部內容。
參考:
https://blog.csdn.net/gateswell/article/details/78858579