一网持、數(shù)據(jù)準備
1、測序數(shù)據(jù)
(1 )公司獲得
(2) NCBI下載/ENA下載
2、參考序列準備
(1)基因組序列 下載地址:Ensembl、EnsemblGenomes窟蓝、NCBI
下載后解壓整合到一起構(gòu)成genome.fasta文件
(2)基因注釋文件 下載地址:Ensembl、EnsemblGenomes饱普、NCBI 如果下載不到gtf,而是gff文件运挫,可以用gffread命令轉(zhuǎn)換
gffread -T -o 輸出文件名 輸入文件路徑
3 測序數(shù)據(jù)的樣本名及測序數(shù)據(jù)的絕對路徑
如果是雙末端測序状共,為4列,第一列為樣本分組名 第二列為樣本名 第三列為測序數(shù)據(jù)的絕對路徑
cat sample.txt
ck_b001 ck_b001_s1 /home/luly/workspace/data/ck_b001_s1.fq.gz
ck_b001 ck_b001_s2 /home/luly/workspace/data/ck_b001_s2.fq.gz
ck_b001 ck_b001_s3 /home/luly/workspace/data/ck_b001_s3.fq.gz
這個表可以用來批量生成腳本谁帕,所以要非常仔細
二峡继、比對到參考基因組
1、安裝軟件
hisat2
samtools
2匈挖、為參考序列構(gòu)建索引
hisat2-built ../ref/genome.fasta ../ref/genome 1>histat2-built.log 2>&1
hisat2-built 基因組文件(genome.fasta)路徑 索引名稱路徑 1>histat2-built.log 2>&1
3碾牌、批量比對
awk '{print "hisat2 -- new-summary -p 10 -x 索引名稱路徑 -U “$3” -S “$2".sam --rna-strandness R 1>"$2".log 2>&1 &"}' samples.txt的路徑 >hisat.sh
#-p 線程數(shù)
#-U 單端測序文件,fastq格式儡循。雙端的為-1 -2
#-S 輸出文件舶吗,sam格式
#--rna-strandness 普通文庫,單端為R择膝,雙端為RF
#1>"&2".log 日志文件
#2>&1 錯誤輸出也定向到log文件
#最后一個&符號是讓它并行
nohop sh hisat.sh &
#后臺運行
4誓琼、比對結(jié)果壓縮(批量)
由于sam文件太大。需要將sam文件壓縮為bam文件并排序
awk '{print "samtools sort -o "$2".bam "$2".sam &"}' samples.txt的路徑 >samtools.sh
nohop sh samtools.sh &
:wqcd