一覺醒來饰躲,數(shù)據(jù)下載完了嬉橙,從NCBI下載的數(shù)據(jù)是一個(gè)高度壓縮的sra文件盗扇,我們需要先解壓成fastq文件祷肯。進(jìn)一步的質(zhì)控可以看看測序的質(zhì)量。到這里你可能需要補(bǔ)充一些關(guān)于測序格式的知識了疗隶。分享徐洲更的b站視頻課:https://www.bilibili.com/video/BV1Rt411G7Ea
格式轉(zhuǎn)換
不知道為啥佑笋,用fastq-dump,--split 3這個(gè)option沒法用斑鼻,所以我用了fasterq-dump蒋纬,聽說這個(gè)速度更快。
mkdir fastq
fasterq-dump -O fastq -3 -p SRR35899*/SRR35899*.sra #星號可以表示所有帶這個(gè)前綴的文件坚弱,當(dāng)然也可以用循環(huán)語句來寫
我們來看看這里的一些參數(shù):
-O 輸出文件夾
-3 雙端測序分別保存
-p 看進(jìn)度
這一步結(jié)束之后我們在fastq文件夾就可以看到一堆SRR****.sra_1.fastq和SRR****.sra_2.fastq文件了蜀备。
質(zhì)控
接下來我們用fastqc進(jìn)行質(zhì)控
fastqc -o SRR35899*.sra_*.fastq #-o參數(shù)表示輸出目錄
完成之后我們在輸出目錄中找到一堆html文件,拷貝到自己的電腦上荒叶,用網(wǎng)頁打開看琼掠。關(guān)于測序結(jié)果的分析,參考http://www.reibang.com/p/14fd4de54402
當(dāng)然你會發(fā)現(xiàn)要是數(shù)據(jù)多了處理起來就很麻煩停撞,有一個(gè)叫multiqc的工具,以后用到了回來跟新下,這里先用徐洲更的教程代替下
http://www.reibang.com/p/303de2c95239