2022.06.25 | 轉(zhuǎn)錄組分析(一)--hisat2+featurecounts(也就是在服務(wù)器中的操作)

1 ###文件下載


單個(gè)文件
wget -c -t 0 -O SRR13107018.sra https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR13107018/SRR13107018
#-c -t 配合使用可以防止下載數(shù)據(jù)的過(guò)程中鏈接中斷的問(wèn)題捕仔,-O則可以指定下載路徑和文件名。

#多個(gè)文件一起下
/home/software/sratoolkit.2.9.6-1-centos_linux64/bin/prefetch -O ./ --option-file SRR_Acc_List.txt

2 ## 循環(huán)把下載的所有sra文件都變?yōu)閒astq(雙端測(cè)序數(shù)據(jù))


ls *sra | while read id ;do (nohup /home/software/sratoolkit.2.9.6-1-centos_linux64/bin/fastq-dump --gzip --split-3 $id &) ;done

3 ### fastp質(zhì)量控制

ls *fastq.gz | cut -d"_" -f 1 |sort -u | while read id ;do (nohup fastp -i ${id}_1.fastq.gz -I ${id}_2.fastq.gz -g -q 5 -n 15 -l 150 -u 50 -o ${id}_1.filter.fastq.gz -O ${id}_2.filter.fastq.gz -h ${id}.fastp.html &) ;done

# 去除帶接頭(adapter)的雙端讀長(zhǎng)(默認(rèn)開啟风宁,可用-A關(guān)閉);
# 去掉單端讀長(zhǎng)中含 N(N 表示無(wú)法確定堿基信息)的堿基比例大于10%部分(默認(rèn)開啟)
# -q 設(shè)置堿基質(zhì)量閾值曙旭,默認(rèn)是15茧球,phred質(zhì)量評(píng)分≥Q15
# -n 一條read中N堿基的數(shù)量超過(guò)了多少個(gè),那么這條read就被刪除枪狂,默認(rèn)是5(即這條read里有5個(gè)N)
# -g 進(jìn)行PolyG尾的去除
# -u 允許百分之多少的堿基不合格(0-100)危喉,默認(rèn)是40(就是說(shuō)40%),超過(guò)這個(gè)比例州疾,整條read就被刪除
# -l read小于這個(gè)參數(shù)設(shè)定長(zhǎng)度會(huì)被丟棄或刪除辜限,默認(rèn)是15,由你的測(cè)序bp決定
# -j, --json    輸出的json報(bào)告文件名,以“.json”結(jié)尾
# -h, --html    輸出的html報(bào)告文件名严蓖,以“.html”結(jié)尾

4 ###參考基因組下載及建索引(如已有薄嫡,忽略此步)


## 下載基因組序列
mkdir -p  genome/ARS-UCD1.2  && cd genome/ARS-UCD1.2
nohup wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/002/263/795/GCF_002263795.1_ARS-UCD1.2/GCF_002263795.1_ARS-UCD1.2_genomic.fna.gz &  
gunzip GCF_002263795.1_ARS-UCD1.2_genomic.fna.gz
## 下載gtf文件并解壓
wget https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Bos_taurus/latest_assembly_versions/GCF_002263795.1_ARS-UCD1.2/GCF_002263795.1_ARS-UCD1.2_genomic.gtf.gz
gunzip GCF_002263795.1_ARS-UCD1.2_genomic.gtf.gz
## 建索引(hisat2軟件)
mkdir index & cd index
nohup hisat2-build -p 4 GCF_002263795.1_ARS-UCD1.2_genomic.fna  GCF_002263795.1_ARS-UCD1.2_genomic > hisat2.log &

5 ###reads mapping到參考基因組-----hisat2

mkdir hismap.sam
ls *filter.fastq.gz|cut -d"_" -f 1 |sort -u | while read id ;do (nohup hisat2 -p 8 -x /home/sll/genome-cattle/ARS-UCD1.2/GCF_002263795.1_ARS-UCD1.2_genomic -1 ${id}_1.filter.fastq.gz -2 ${id}_2.filter.fastq.gz -S hismap.sam/${id}.hismap.sam &) ;done


#綿羊參考基因組
/home/sll/genome-sheep/Oar_rambouillet_v1.0-ncbi/GCF_002742125.1_Oar_rambouillet_v1.0_genomic
#牛參考基因組
/home/sll/genome-cattle/ARS-UCD1.2/GCF_002263795.1_ARS-UCD1.2_genomic
# -p: 線程數(shù)
# -x: 基因組索引前綴氧急。所下的基因組索引為多個(gè)文件,索引前綴到genome為止毫深。
# -1/-2:  fastq輸入文件吩坝。當(dāng)輸入為單端測(cè)序時(shí)使用-U 指定輸入。單端或雙端的輸入都可使用逗號(hào)分隔輸入多個(gè)樣本哑蔫,或使用多次-1 -2 / -U 指定多個(gè)輸入钉寝。e.g.: -U sample1.fq.gz,sample2.fq.gz -U sample3.fq.gz
# -S: 輸出sam文件路徑。

6 ###轉(zhuǎn)為bam文件并排序

cd hisout.sam
ls *sam | cut -d"." -f 1 |sort -u | while read id ;do (nohup samtools view -S ${id}.hismap.sam -b > ${id}.hismap.bam &) ;done
ls *hismap.bam | cut -d"." -f 1 |sort -u | while read id ;do (nohup samtools sort -@ 8 ${id}.hismap.bam -o ${id}_sort.bam &) ;done

# sort: 進(jìn)行排序
# -@: 線程數(shù)
# -o: 輸出bam文件
# 最后一項(xiàng)為輸入文件

7 ###為sort.bam文件建索引

ls *sort.bam | cut -d"_" -f 1 | sort -u | while read id ;do (nohup samtools index ${id}_sort.bam ${id}_sort.bam.index &) ;done

## index用于建立索引闸迷,使之快速訪問(wèn)bam文件

8 ###faturecount計(jì)數(shù)定量


nohup featureCounts -p -t exon -g gene_id -M -T 8 -a /home/sll/genome-cattle/ARS-UCD1.2/GCF_002263795.1_ARS-UCD1.2_genomic.gtf -o all.featurecounts.txt *_sort.bam &


#綿羊gtf文件
/home/sll/genome-sheep/Oar_rambouillet_v1.0-ncbi/GCF_002742125.1_Oar_rambouillet_v1.0_genomic.gtf
#牛gtf文件
/home/sll/genome-cattle/ARS-UCD1.2/GCF_002263795.1_ARS-UCD1.2_genomic.gtf
#  featureCounts 進(jìn)行定量嵌纲,統(tǒng)計(jì)比對(duì)在這個(gè)基因的坐標(biāo)上的read數(shù)
# -t 設(shè)置feature-type,-t指定的必須是gtf中有的feature稿黍,同時(shí)read只有落到這些feature上才會(huì)被統(tǒng)計(jì)到疹瘦,默認(rèn)是“exon”
# -p 雙端數(shù)據(jù)時(shí)需要
# -a 轉(zhuǎn)錄組注釋文件
# -o 輸出文件

###報(bào)錯(cuò)處理
cat GCF_002263795.1_ARS-UCD1.2_genomic.gtf | grep gene_id | wc -w  #檢查原始gtf注釋文件gene_id個(gè)數(shù)
cat GCF_002263795.1_ARS-UCD1.2_genomic.gtf | grep gene_id\ \"\"\; | wc -w  #檢查空gene_id值的行數(shù)
sed -i -e '/gene_id\ \"\"\;/d' GCF_002263795.1_ARS-UCD1.2_genomic.gtf  #刪除包括空gene_id值的行 
cat GCF_002263795.1_ARS-UCD1.2_genomic.gtf | grep gene_id\ \"\"\; | wc -w  #修改后的檢查一下 檢查包括空gene_id值的行 0為已刪除掉

9 ###對(duì)featureCounts的結(jié)果進(jìn)行整合,html文件可視化

multiqc all.featurecounts.txt.summary -o  all.counts.summary

10 ###提取定量信息

awk -F '\t' '{print $1,$7,$8,$9,$10,$11,$12}' OFS='\t' all.featurecounts.txt > all_fcount.matrix.txt

# 1列為基因id巡球,7列及以后為樣本定量信息
# \t 表示以制表符分割開來(lái)

11 ###將矩陣導(dǎo)入R中言沐,采用DESeq2進(jìn)行差異分析

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市酣栈,隨后出現(xiàn)的幾起案子险胰,更是在濱河造成了極大的恐慌,老刑警劉巖矿筝,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件起便,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡窖维,警方通過(guò)查閱死者的電腦和手機(jī)榆综,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)铸史,“玉大人鼻疮,你說(shuō)我怎么就攤上這事×战危” “怎么了判沟?”我有些...
    開封第一講書人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)崭篡。 經(jīng)常有香客問(wèn)我挪哄,道長(zhǎng),這世上最難降的妖魔是什么琉闪? 我笑而不...
    開封第一講書人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任迹炼,我火速辦了婚禮,結(jié)果婚禮上颠毙,老公的妹妹穿的比我還像新娘斯入。我一直安慰自己拿霉,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開白布咱扣。 她就那樣靜靜地躺著,像睡著了一般涵防。 火紅的嫁衣襯著肌膚如雪闹伪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,111評(píng)論 1 285
  • 那天壮池,我揣著相機(jī)與錄音偏瓤,去河邊找鬼。 笑死椰憋,一個(gè)胖子當(dāng)著我的面吹牛厅克,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播橙依,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼证舟,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了窗骑?” 一聲冷哼從身側(cè)響起女责,我...
    開封第一講書人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎创译,沒(méi)想到半個(gè)月后抵知,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡软族,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年刷喜,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片立砸。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡掖疮,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出仰禽,到底是詐尸還是另有隱情氮墨,我是刑警寧澤,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布吐葵,位于F島的核電站规揪,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏温峭。R本人自食惡果不足惜猛铅,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望凤藏。 院中可真熱鬧奸忽,春花似錦堕伪、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至疙筹,卻和暖如春富俄,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背而咆。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工霍比, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人暴备。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓悠瞬,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親涯捻。 傳聞我的和親對(duì)象是個(gè)殘疾皇子浅妆,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容