2022.06.25 | 轉(zhuǎn)錄組分析(一)--hisat2+featurecounts（也就是在服務(wù)器中的操作）

1 ###文件下載


單個(gè)文件
wget -c -t 0 -O SRR13107018.sra https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR13107018/SRR13107018
#-c -t 配合使用可以防止下載數(shù)據(jù)的過(guò)程中鏈接中斷的問(wèn)題捕仔，-O則可以指定下載路徑和文件名。

#多個(gè)文件一起下
/home/software/sratoolkit.2.9.6-1-centos_linux64/bin/prefetch -O ./ --option-file SRR_Acc_List.txt

2 ## 循環(huán)把下載的所有sra文件都變?yōu)閒astq(雙端測(cè)序數(shù)據(jù))


ls *sra | while read id ;do (nohup /home/software/sratoolkit.2.9.6-1-centos_linux64/bin/fastq-dump --gzip --split-3 $id &) ;done

3 ### fastp質(zhì)量控制

ls *fastq.gz | cut -d"_" -f 1 |sort -u | while read id ;do (nohup fastp -i ${id}_1.fastq.gz -I ${id}_2.fastq.gz -g -q 5 -n 15 -l 150 -u 50 -o ${id}_1.filter.fastq.gz -O ${id}_2.filter.fastq.gz -h ${id}.fastp.html &) ;done

# 去除帶接頭(adapter)的雙端讀長(zhǎng)(默認(rèn)開啟风宁，可用-A關(guān)閉)；
# 去掉單端讀長(zhǎng)中含 N(N 表示無(wú)法確定堿基信息)的堿基比例大于10%部分（默認(rèn)開啟）
# -q 設(shè)置堿基質(zhì)量閾值曙旭，默認(rèn)是15茧球，phred質(zhì)量評(píng)分≥Q15
# -n 一條read中N堿基的數(shù)量超過(guò)了多少個(gè)，那么這條read就被刪除枪狂，默認(rèn)是5（即這條read里有5個(gè)N）
# -g 進(jìn)行PolyG尾的去除
# -u 允許百分之多少的堿基不合格（0-100）危喉，默認(rèn)是40（就是說(shuō)40%），超過(guò)這個(gè)比例州疾，整條read就被刪除
# -l read小于這個(gè)參數(shù)設(shè)定長(zhǎng)度會(huì)被丟棄或刪除辜限，默認(rèn)是15,由你的測(cè)序bp決定
# -j, --json    輸出的json報(bào)告文件名，以“.json”結(jié)尾
# -h, --html    輸出的html報(bào)告文件名严蓖，以“.html”結(jié)尾

4 ###參考基因組下載及建索引（如已有薄嫡，忽略此步）


## 下載基因組序列
mkdir -p  genome/ARS-UCD1.2  && cd genome/ARS-UCD1.2
nohup wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/002/263/795/GCF_002263795.1_ARS-UCD1.2/GCF_002263795.1_ARS-UCD1.2_genomic.fna.gz &  
gunzip GCF_002263795.1_ARS-UCD1.2_genomic.fna.gz
## 下載gtf文件并解壓
wget https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Bos_taurus/latest_assembly_versions/GCF_002263795.1_ARS-UCD1.2/GCF_002263795.1_ARS-UCD1.2_genomic.gtf.gz
gunzip GCF_002263795.1_ARS-UCD1.2_genomic.gtf.gz
## 建索引（hisat2軟件）
mkdir index & cd index
nohup hisat2-build -p 4 GCF_002263795.1_ARS-UCD1.2_genomic.fna  GCF_002263795.1_ARS-UCD1.2_genomic > hisat2.log &

5 ###reads mapping到參考基因組-----hisat2

mkdir hismap.sam
ls *filter.fastq.gz|cut -d"_" -f 1 |sort -u | while read id ;do (nohup hisat2 -p 8 -x /home/sll/genome-cattle/ARS-UCD1.2/GCF_002263795.1_ARS-UCD1.2_genomic -1 ${id}_1.filter.fastq.gz -2 ${id}_2.filter.fastq.gz -S hismap.sam/${id}.hismap.sam &) ;done


#綿羊參考基因組
/home/sll/genome-sheep/Oar_rambouillet_v1.0-ncbi/GCF_002742125.1_Oar_rambouillet_v1.0_genomic
#牛參考基因組
/home/sll/genome-cattle/ARS-UCD1.2/GCF_002263795.1_ARS-UCD1.2_genomic
# -p: 線程數(shù)
# -x: 基因組索引前綴氧急。所下的基因組索引為多個(gè)文件，索引前綴到genome為止毫深。
# -1/-2:  fastq輸入文件吩坝。當(dāng)輸入為單端測(cè)序時(shí)使用-U 指定輸入。單端或雙端的輸入都可使用逗號(hào)分隔輸入多個(gè)樣本哑蔫，或使用多次-1 -2 / -U 指定多個(gè)輸入钉寝。e.g.: -U sample1.fq.gz,sample2.fq.gz -U sample3.fq.gz
# -S: 輸出sam文件路徑。

6 ###轉(zhuǎn)為bam文件并排序

cd hisout.sam
ls *sam | cut -d"." -f 1 |sort -u | while read id ;do (nohup samtools view -S ${id}.hismap.sam -b > ${id}.hismap.bam &) ;done
ls *hismap.bam | cut -d"." -f 1 |sort -u | while read id ;do (nohup samtools sort -@ 8 ${id}.hismap.bam -o ${id}_sort.bam &) ;done

# sort: 進(jìn)行排序
# -@: 線程數(shù)
# -o: 輸出bam文件
# 最后一項(xiàng)為輸入文件

7 ###為sort.bam文件建索引

ls *sort.bam | cut -d"_" -f 1 | sort -u | while read id ;do (nohup samtools index ${id}_sort.bam ${id}_sort.bam.index &) ;done

## index用于建立索引闸迷，使之快速訪問(wèn)bam文件

8 ###faturecount計(jì)數(shù)定量


nohup featureCounts -p -t exon -g gene_id -M -T 8 -a /home/sll/genome-cattle/ARS-UCD1.2/GCF_002263795.1_ARS-UCD1.2_genomic.gtf -o all.featurecounts.txt *_sort.bam &


#綿羊gtf文件
/home/sll/genome-sheep/Oar_rambouillet_v1.0-ncbi/GCF_002742125.1_Oar_rambouillet_v1.0_genomic.gtf
#牛gtf文件
/home/sll/genome-cattle/ARS-UCD1.2/GCF_002263795.1_ARS-UCD1.2_genomic.gtf
#  featureCounts 進(jìn)行定量嵌纲，統(tǒng)計(jì)比對(duì)在這個(gè)基因的坐標(biāo)上的read數(shù)
# -t 設(shè)置feature-type，-t指定的必須是gtf中有的feature稿黍，同時(shí)read只有落到這些feature上才會(huì)被統(tǒng)計(jì)到疹瘦，默認(rèn)是“exon”
# -p 雙端數(shù)據(jù)時(shí)需要
# -a 轉(zhuǎn)錄組注釋文件
# -o 輸出文件

###報(bào)錯(cuò)處理
cat GCF_002263795.1_ARS-UCD1.2_genomic.gtf | grep gene_id | wc -w  #檢查原始gtf注釋文件gene_id個(gè)數(shù)
cat GCF_002263795.1_ARS-UCD1.2_genomic.gtf | grep gene_id\ \"\"\; | wc -w  #檢查空gene_id值的行數(shù)
sed -i -e '/gene_id\ \"\"\;/d' GCF_002263795.1_ARS-UCD1.2_genomic.gtf  #刪除包括空gene_id值的行 
cat GCF_002263795.1_ARS-UCD1.2_genomic.gtf | grep gene_id\ \"\"\; | wc -w  #修改后的檢查一下 檢查包括空gene_id值的行 0為已刪除掉

9 ###對(duì)featureCounts的結(jié)果進(jìn)行整合，html文件可視化

multiqc all.featurecounts.txt.summary -o  all.counts.summary

10 ###提取定量信息

awk -F '\t' '{print $1,$7,$8,$9,$10,$11,$12}' OFS='\t' all.featurecounts.txt > all_fcount.matrix.txt

# 1列為基因id巡球，7列及以后為樣本定量信息
# \t 表示以制表符分割開來(lái)

11 ###將矩陣導(dǎo)入R中言沐，采用DESeq2進(jìn)行差異分析

最后編輯于：2023.03.22 10:13:37

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市酣栈，隨后出現(xiàn)的幾起案子险胰，更是在濱河造成了極大的恐慌，老刑警劉巖矿筝，帶你破解...
沈念sama閱讀 206,839評(píng)論 6贊 482
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件起便，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡窖维，警方通過(guò)查閱死者的電腦和手機(jī)榆综，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,543評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)铸史，“玉大人鼻疮，你說(shuō)我怎么就攤上這事×战危” “怎么了判沟？”我有些...
開封第一講書人閱讀 153,116評(píng)論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)崭篡。經(jīng)常有香客問(wèn)我挪哄，道長(zhǎng)，這世上最難降的妖魔是什么琉闪？我笑而不...
開封第一講書人閱讀 55,371評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任迹炼，我火速辦了婚禮，結(jié)果婚禮上颠毙，老公的妹妹穿的比我還像新娘斯入。我一直安慰自己拿霉，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,384評(píng)論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布咱扣。她就那樣靜靜地躺著，像睡著了一般涵防。火紅的嫁衣襯著肌膚如雪闹伪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,111評(píng)論 1贊 285
城市分裂傳說(shuō)
那天壮池，我揣著相機(jī)與錄音偏瓤，去河邊找鬼。笑死椰憋，一個(gè)胖子當(dāng)著我的面吹牛厅克，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播橙依，決...
沈念sama閱讀 38,416評(píng)論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼证舟，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了窗骑？” 一聲冷哼從身側(cè)響起女责，我...
開封第一講書人閱讀 37,053評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎创译，沒(méi)想到半個(gè)月后抵知，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,558評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡软族，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,007評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年刷喜，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片立砸。...
茶點(diǎn)故事閱讀 38,117評(píng)論 1贊 334
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡掖疮，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出仰禽，到底是詐尸還是另有隱情氮墨，我是刑警寧澤，帶...
沈念sama閱讀 33,756評(píng)論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布吐葵，位于F島的核電站规揪，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏温峭。R本人自食惡果不足惜猛铅，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,324評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望凤藏。院中可真熱鬧奸忽，春花似錦堕伪、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,315評(píng)論 0贊 19
一樁弒父案欠雌，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至疙筹，卻和暖如春富俄，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背而咆。一陣腳步聲響...
開封第一講書人閱讀 31,539評(píng)論 1贊 262
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工霍比，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人暴备。一個(gè)月前我還...
沈念sama閱讀 45,578評(píng)論 2贊 355
代替公主和親
正文我出身青樓悠瞬，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親涯捻。傳聞我的和親對(duì)象是個(gè)殘疾皇子浅妆，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,877評(píng)論 2贊 345

2022.06.25 | 轉(zhuǎn)錄組分析(一)--hisat2+featurecounts（也就是在服務(wù)器中的操作）

推薦閱讀更多精彩內(nèi)容