轉(zhuǎn)錄組入門(6):reads計數(shù)

作業(yè)要求

1.實現(xiàn)這個功能的軟件也很多梗逮,還是煩請大家先自己搜索幾個教程秸谢,入門請統(tǒng)一用htseq-count纱新,對每個樣本都會輸出一個表達量文件由捎。
2.需要用腳本合并所有的樣本為表達矩陣商叹。參考:生信編程直播第四題:多個同樣的行列式文件合并起來燕刻。
3.對這個表達矩陣可以自己簡單在excel或者R里面摸索,求平均值剖笙,方差卵洗。
看看一些生物學意義特殊的基因表現(xiàn)如何,比如GAPDH,β-ACTIN等等弥咪。
來源于生信技能樹:http://www.biotrainee.com/forum.php?mod=viewthread&tid=1750#lastpost

實驗過程

1.數(shù)據(jù)準備

文獻中測序的是PE过蹂,因此我們在對雙端數(shù)據(jù)進行處理時,必須要按reads名進行排序聚至。

# 首先將bam文件按reads名稱進行排序(前期是按照默認的染色體位置進行排序的酷勺,所以要重新進行排序),這里我們主要以小鼠的數(shù)據(jù)為例子扳躬,不進行人類的測序數(shù)據(jù)脆诉。
$ cd ~/disk2/data/rna-seq/aligned
$ for ((i=59;i<=62;i++));do samtools sort -n SRR35899${i}.bam -o SRR35899${i}_nsorted.bam;done 
# 將排序后的bam文件再次轉(zhuǎn)換成sam格式的文件
$ for ((i=59;i<=62;i++));do samtools view -h SRR35899${i}_nsorted.bam > SRR35899${i}_count.sam;done 

2. reads計數(shù)

數(shù)據(jù)準備已經(jīng)完成,接下來要使用htseq-count對數(shù)據(jù)進行reads 計數(shù)贷币。
Usage:htseq-count [options] <sam_file> <gff_file>
這里最好使用ensembl的基因組注釋文件击胜,小鼠的文件還是需要再次的下載。

#小鼠基因組注釋文件的下載,我下載的是m10版本的役纹,與基因組匹配
$ mkdir -p ~/disk2/data/reference/genome/mm10
$ cd ~/disk2/data/reference/genome/mm10
$ wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_mouse/release_M10/gencode.vM10.chr_patch_hapl_scaff.annotation.gtf.gz
$ gunzip gencode.vM10.chr_patch_hapl_scaff.annotation.gtf.gz && rm -rf gencode.vM10.chr_patch_hapl_scaff.annotation.gtf.gz
# 之前的環(huán)境已經(jīng)全部搭建完成偶摔,直接就可以使用htseq-count
$ mkdir -p ~/disk2/data/rna-seq/matrix && cd ~/disk2/data/rna-seq/matrix
$ for ((i=59;i<=62;i++));do htseq-count ~/disk2/data/rna-seq/aligned/SRR35899${i}_count.sam ~/disk2/data/reference/genome/mm10/gencode.vM10.chr_patch_hapl_scaff.annotation.gtf;done 

最后得到4個矩陣文件
reads 計數(shù)文件

count文件的格式:基因名一列+reads計數(shù)一列
count文件結(jié)構(gòu)

這一部分主要參考的是老司機Jimmy大神的博客:http://www.bio-info-trainee.com/244.html

3.合并表達矩陣

使用R將這四個文件進行合并,得到最后的融合表達矩陣字管,R語言代碼:

>options(stringsAsFactors = FALSE) 
# 首先將四個文件分別賦值:control1啰挪,control2,rep1嘲叔,rep2
>control1 <- read.table("~/disk2/data/rna-seq/matrix/SRR3589959.count", sep="\t", col.names = c("gene_id","control1"))
>control2 <- read.table("~/disk2/data/rna-seq/matrix/SRR3589961.count", sep="\t", col.names = c("gene_id","control2")) 
>rep1 <- read.table("~/disk2/data/rna-seq/matrix/SRR3589960.count", sep="\t", col.names = c("gene_id","akap951")) 
>rep2 <- read.table("~/disk2/data/rna-seq/matrix/SRR3589962.count", sep="\t",col.names = c("gene_id","akap952"))
# 將四個矩陣按照gene_id進行合并,并賦值給raw_count
>raw_count <- merge(merge(control1, contol2, by="gene_id"), merge(rep1,rep2, by="gene_id"))
# 需要將合并的raw_count進行過濾處理抽活,里面有5行需要刪除的行硫戈,在我們的小鼠的表達矩陣里面,是1,2,48823,48824,48825這5行下硕。并重新賦值給raw_count_filter
>raw_count_filt <- raw_count[-48823:-48825, ]
>raw_count_filter <- raw_count_filt[-1:-2, ]
# 因為我們無法在EBI數(shù)據(jù)庫上直接搜索找到ENSMUSG00000024045.5這樣的基因丁逝,只能是ENSMUSG00000024045的整數(shù)汁胆,沒有小數(shù)點,所以需要進一步替換為整數(shù)的形式霜幼。
# 第一步將匹配到的.以及后面的數(shù)字連續(xù)匹配并替換為空嫩码,并賦值給ENSEMBL
>ENSEMBL <- gsub("\\.\\d*", "", raw_count_filt1$gene_id) 
# 將ENSEMBL重新添加到raw_count_filt1矩陣
>row.names(raw_count_filter) <- ENSEMBL
# 看一些基因的表達情況,在UniProt數(shù)據(jù)庫找到AKAP95的id罪既,并從矩陣中找到訪問铸题,并賦值給AKAP95變量
>AKAP95 <- raw_count_filter[rownames(raw_count_filt1)=="ENSMUSG00000024045",]
# 查看AKAP95
>AKAP95

  • raw_count_filter結(jié)構(gòu)


    raw_count_filter數(shù)據(jù)結(jié)構(gòu)
  • AKAP95基因的表達情況,可以看到表達量是提高
AKAP95reads計數(shù)情況

這一部分主要參考徐州更同學的R語言代碼:http://www.reibang.com/p/e9742bbf83b9
我的數(shù)據(jù)是用的小鼠的測序結(jié)果琢感,所以我修改了部分的內(nèi)容丢间,更好的進行。

PS:前段時間一直在忙于實驗驹针,沒有及時去完成這一部分的內(nèi)容烘挫,今天正好是星期天,所以就打算抽出一點時間來完成這一部分的學習筆記柬甥。還有一個原因就是因為自己好像不會了饮六,沒法再進行下去了,說到第還是有些害怕了苛蒲,實在慚愧哈卤橄,繼續(xù)努力加油。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末撤防,一起剝皮案震驚了整個濱河市虽风,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌寄月,老刑警劉巖辜膝,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異漾肮,居然都是意外死亡厂抖,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門克懊,熙熙樓的掌柜王于貴愁眉苦臉地迎上來忱辅,“玉大人,你說我怎么就攤上這事谭溉∏蕉” “怎么了?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵扮念,是天一觀的道長损搬。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么巧勤? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任嵌灰,我火速辦了婚禮,結(jié)果婚禮上颅悉,老公的妹妹穿的比我還像新娘沽瞭。我一直安慰自己,他們只是感情好剩瓶,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布驹溃。 她就那樣靜靜地躺著,像睡著了一般儒搭。 火紅的嫁衣襯著肌膚如雪吠架。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天搂鲫,我揣著相機與錄音傍药,去河邊找鬼。 笑死魂仍,一個胖子當著我的面吹牛拐辽,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播擦酌,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼俱诸,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了赊舶?” 一聲冷哼從身側(cè)響起睁搭,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎笼平,沒想到半個月后园骆,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡寓调,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年锌唾,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片夺英。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡晌涕,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出痛悯,到底是詐尸還是另有隱情余黎,我是刑警寧澤,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布载萌,位于F島的核電站驯耻,受9級特大地震影響亲族,放射性物質(zhì)發(fā)生泄漏炒考。R本人自食惡果不足惜可缚,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望斋枢。 院中可真熱鬧帘靡,春花似錦、人聲如沸瓤帚。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽戈次。三九已至轩勘,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間怯邪,已是汗流浹背绊寻。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留悬秉,地道東北人澄步。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像和泌,于是被迫代替她去往敵國和親村缸。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容