2021-04-15

參考文獻:

Pertea M, Kim D,Pertea G M, et al. Transcript-level expression analysis of RNA-seq experimentswith HISAT, StringTie and Ballgown.[J]. Nature Protocols, 2016, 11(9):1650.


1.clean reads質(zhì)量檢驗:

用fastqc檢驗clean reads質(zhì)量拄养,代碼如下:

fastqc -o 【待測序列所在目錄】--extract -f fastq *.fq.gz(序列名稱)

質(zhì)檢結(jié)果:

所有序列的Kmer Content均為FAIL狂男,Per Base Sequence Content贮懈、Per Tile sequence quality蛇数、sequence duplication levels至少有一個WARN则拷。

Per Base Sequence Content圖中四條線交織段化,表明存在overrepresented sequence:

猜測:轉(zhuǎn)錄組中逛艰,表達量高的reads被識別為overrepresented sequence赛惩,屬于正嘲梗現(xiàn)象。

參考:http://www.cnblogs.com/longjianggu/p/5078782.html


2.制作索引(indexes):


在GENOSCOPE下載油菜基因組序列文件(.fa.gz)和基因組注釋文件(.gff3.gz):http://www.genoscope.cns.fr/brassicanapus/data/


hisat2-build /genome/GCF_000686985.1_Brassica_napus_assembly_v1.0_genomic.fna(基因組序列文件目錄) brassica_tran(索引名稱及輸出目錄)


3.序列比對(alignment):

原始代碼:

hisat2?-p(線程數(shù)) 16?--dta?-x?indexes/brassica_tran(索引文件目錄) -1?/data/CleanData/$reads1(reads1目錄)?-2?/data/CleanData/$reads2(reads2目錄)?-S?/hisat2_results/$【sample?name】.sam(輸出文件名稱及目錄)

每個樣本都需通過上述代碼進行比對喷兼,封裝成BASH腳本運行:

vi alignment(新建空白文檔alignment篮绰,以下代碼在vi中輸入)

#! /bin/bash

# run some hisat2 alignments


while read line

do


??????? reads1=${line}_1.fq.gz

??????? reads2=${line}_2.fq.gz

??????? hisat2 -p 16 --dta -x /indexes/brassica_tran -1/data/CleanData/$reads1 -2 /data/CleanData/$reads2 -S/hisat2_results/${line}.sam

done </files/samples.txt(將樣本名稱按行寫在位于/files目錄下的samples.txt文件中)

<Esc>:wq保存退出

chmod +x alignment(賦予可執(zhí)行權(quán)限)

nohup ./alignment & 后臺運行腳本,輸出結(jié)果將儲存在生成的nohup.log文件中


4.samtools排序及格式轉(zhuǎn)換

原始代碼:

samtools sort -@ 16 -o /data/bamfiles/【sample name】.bam(bam文件名稱及輸出目錄) /data/hisat2_results/【sample name】.sam(sam文件名稱及輸出目錄)


封裝成BASH腳本:

#! /bin/bash

# samtools sort


while read line

do

?????? samtools sort -@ 16 -o/data/bamfiles/${line}.bam /data/hisat2_results/${line}.sam

done < /files/samples.txt


5.序列初組裝(assembly)

原始代碼:

stringtie -p 16 -G /genes/brassica.gff(基因組注釋文件) -o /data/transcripts/【sample name】.gtf(輸出季惯,比對結(jié)果吠各,gtf文件) -l 【sample name】(命名規(guī)則)? /data/bamfiles/【sample name】.bam(輸入,bam文件所在目錄)


封裝成BASH腳本:

#! /bin/bash

# stringtie 1st step


while read line

do

?????? stringtie -p 16 -G/genes/brassica.gff -o /data/transcripts/${line}.gtf -l ${line}/data/bamfiles/${line}.bam

done < /files/samples.txt


6.Merge

stringtie --merge -p 16 -G /genes/brassica.gff -o stringtie_merged.gtf/data/transcripts/mergelist.txt


gffcompare檢測組裝結(jié)果:

gffcompare -r /genes/brassica.gff -G -o merged stringtie_merged.gtf


7.計算表達量并輸出成ballgown格式

原始代碼:

stringtie -e -B -p 16 -G /data/transcripts/stringtie_merged.gtf(用merge生成的gtf文件代替基因組注釋) -o /data/ballgown/$【sample name】/$【sample name】.gtf(輸出為ballgown所需的輸入格式) /data/bamfiles/【sample name】.bam(輸入勉抓,bam文件)


封裝成BASH腳本:

#! /bin/bash

# stringtie 3rd step


while read line

do

??????? stringtie -e -B -p 16 -G/data/transcripts/stringtie_merged.gtf -o /data/ballgown/${line}/${line}.gtf/data/bamfiles/${line}.bam

done < /files/samples.txt


8.ballgown分析差異表達基因(在R中進行)

>install.packages(‘devtools’)

>source('http://www.bioconductor.org/biocLite.R')

>biocLite(c(’ballgown’, 'genefilter’,'dplyr’,'devtools’))

>library(ballgown)

>library(genefilter)

>library(dplyr)

>library(devtools)


>file <- ballgown(dataDir='/data/ballgown',samplePattern=【sample名前綴】)輸入基因表達數(shù)據(jù)

>samplesNames(file)查看ballgown文件中各樣本的排列順序

>pData(file) <- read.csv(‘/data/geuvadis_phenodata.csv’)(導(dǎo)入自制的表型數(shù)據(jù))

>filefilt <-subset(file,'rowVars(texpr(file))>1',genomesubset=TRUE)(過濾掉表達差異較小的基因)

>diff_genes <- stattest(filefilt,feature='gene',covariate=【自變量】,adjustvars=【無關(guān)變量】,meas='FPKM')(統(tǒng)計差異表達的基因)


將差異表達基因按pval從小到大排序贾漏,并寫入csv文件:

>diff_genes <- arrange(diff_genes,pval)

>write.csv(diff_genes,'/data/diff_genes',row.names=FALSE)

————————————————

版權(quán)聲明:本文為CSDN博主「ygyxl」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權(quán)協(xié)議藕筋,轉(zhuǎn)載請附上原文出處鏈接及本聲明纵散。

原文鏈接:https://blog.csdn.net/ygyxl/article/details/74375031

步均做完,不知道第8步.ballgown分析差異表達基因(在R中進行)怎么辦了,一直報錯伍掀。比如>install.packages(‘devtools’)

報錯如下

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末掰茶,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子硕盹,更是在濱河造成了極大的恐慌符匾,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件瘩例,死亡現(xiàn)場離奇詭異啊胶,居然都是意外死亡,警方通過查閱死者的電腦和手機垛贤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門焰坪,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人聘惦,你說我怎么就攤上這事某饰。” “怎么了善绎?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵黔漂,是天一觀的道長。 經(jīng)常有香客問我禀酱,道長炬守,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任剂跟,我火速辦了婚禮减途,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘曹洽。我一直安慰自己鳍置,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布送淆。 她就那樣靜靜地躺著税产,像睡著了一般。 火紅的嫁衣襯著肌膚如雪偷崩。 梳的紋絲不亂的頭發(fā)上辟拷,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機與錄音环凿,去河邊找鬼梧兼。 笑死放吩,一個胖子當(dāng)著我的面吹牛智听,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼到推,長吁一口氣:“原來是場噩夢啊……” “哼考赛!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起莉测,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤颜骤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后捣卤,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體忍抽,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年董朝,在試婚紗的時候發(fā)現(xiàn)自己被綠了鸠项。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡子姜,死狀恐怖祟绊,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情哥捕,我是刑警寧澤牧抽,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站遥赚,受9級特大地震影響扬舒,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜鸽捻,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一呼巴、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧御蒲,春花似錦衣赶、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至碘箍,卻和暖如春遵馆,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背丰榴。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工货邓, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人四濒。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓换况,卻偏偏與公主長得像职辨,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子戈二,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容