20210315rna-seq學習日記-Mac
1?安裝所有的miniconda以及bioconda相關軟件
http://www.reibang.com/p/e8cd62ba14fe
目錄如上
2?下載需要的程序(這里已有需要分析的seq??fastq原始文件)
需要下載請參考
http://www.reibang.com/p/8dca09077df3
今天只選擇了wget?方式ftp的緩慢下載,之后有速度要求可以參考
3?sra到fastq格式轉換
http://www.reibang.com/p/facb4a1e5927
(此處已有原始fastq文件)
使用fastq-dump將網站下載的sra轉換為fastq格式枉昏,并且查看fastqc質量
中文簡介
http://www.reibang.com/p/14fd4de54402
(注意:Fastq格式是一種基于文本的存儲生物序列和對應堿基(或氨基酸)質量的文件格式俯萎。最初由桑格研究所(Wellcome Trust Sanger Institute)開發(fā)出來矾兜,現(xiàn)已成為存儲高通量測序數(shù)據的事實標準纷铣。)
【用法:fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN參數(shù):-o 輸出目錄设凹,需自己創(chuàng)建目錄--(no)extract 是否解壓輸出文件碱工,默認是自動解壓縮zip文件沼琉。加上--noextract不解壓文件北苟。-f 指定輸入文件的類型,支持fastq|bam|sam三種格式的文件打瘪,默認自動識別友鼻。-t 同時處理的文件數(shù)目。-c 是contaminant 文件闺骚,會從中搜索overpresent 序列彩扔。】
簡單的(單文件)處理
#將所有的數(shù)據進行質控僻爽,得到zip的壓縮文件和html文件
fastqc -o . ?*.fastq.gz
注意:-o后面有空格虫碉,表示輸出到當前文件夾,之后的.后也有空格
批量輸出請持續(xù)在后方添加n*.fastq.gz
復雜的(多文件)QC結果顯示
# 進入存放QC結果的文件夾胸梆,并執(zhí)行multiqc
cd ~/disk2/data/QC
# 掃描結果文件敦捧,忽略html文件
$ multiqc /data/*fastqc.zip --ignore *.html
# 最后會默認生成一個名為multiqc_report.html文件,用瀏覽器查看碰镜,具體看青山屋主的介紹兢卵。
http://fbb84b26.wiz03.com/share/s/3XK4IC0cm4CL22pU-r1HPcQQ1iRTvV2GwkwL2AaxYi2fXHP7