轉(zhuǎn)錄組入門(6): reads計數(shù)

前言

實現(xiàn)這個功能的軟件也很多置媳,還是煩請大家先自己搜索幾個教程,入門請統(tǒng)一用htseq-count公条,對每個樣本都會輸出一個表達(dá)量文件拇囊。需要用腳本合并所有的樣本為表達(dá)矩陣。參考:生信編程直播第四題:多個同樣的行列式文件合并起來對這個表達(dá)矩陣可以自己簡單在excel或者R里面摸索靶橱,求平均值寥袭,方差」匕裕看看一些生物學(xué)意義特殊的基因表現(xiàn)如何传黄,比如GAPDH,β-ACTIN等等。生信技能樹

htseq-count使用介紹

Usage:htseq-count [options] <sam_file> <gff_file>

主要參數(shù):

-m 計數(shù)模型選擇队寇,默認(rèn)union膘掰;還有intersection-strict、 intersection-nonempty英上。

-s 是否鏈特異性建庫炭序,默認(rèn)yes

-r 排序方法,推薦按name排序苍日,提高效率

-i 指定read計數(shù)單位惭聂,采用Ensembl GTF時,默認(rèn)按gene_id計數(shù)

-f 輸入文件類型 -a 指定mapping質(zhì)量值過濾read相恃,低的被過濾掉


1503932002082.png

實驗操作

ls *.Nsort.bam |while read id;
do
# read計數(shù) -s no -r name
nohup samtools view  $id |htseq-count -f sam -s no -r name -i gene_name - ../ref/gencode.vM13.annotation.gtf 1>${id%%.*}.geneCounts 2>${id%%.*}.HTseq.log &;
done

# 合并各個樣本的counts值組成表達(dá)矩陣
awk 'BEGIN {OFS="\t"}
    NR==FNR{
        if(FNR==1){f="Gene\t"FILENAME};
        a[FNR]=$1;gene[$1]=$2;next}     
    {if(FNR==1){f=f"\t"FILENAME};
     gene[$1]=gene[$1]"\t"$2} 
    END{print f;for (i in a) print a[i]"\t"gene[a[i]]}' 
*.geneCounts > Akap95_expr.txt

ps: htseq-count目前只能單線程跑辜纲,多個文件通過循環(huán)并行。借助GNU parallel實現(xiàn)htseq-count單文件的并行版拦耐。(存在的問題:個別基因counts數(shù)目比官方的htseq-count多1個count耕腾。原因:對bam分割后,部分reads的兩個mates分割進(jìn)了兩個文件杀糯,htseq-count把這兩個mates都記為了1)

#  借助 GNU parallel扫俺,實現(xiàn) htseq-count 并行版
# -j指定線程;--block文件分塊大小(按1G大小分割)固翰;可根據(jù)具體配置更改
samtools view Akap95_1.Nsort.bam |parallel -j6 --block 1G --pipe -k "htseq-count -f sam -s no -r name -i gene_name - ../ref/gencode.vM13.annotation.gtf >Akap95_1_p{#}.geneCounts"    # time ~30min
#  每個job輸出一個文件狼纬,互不干擾
#  用awk合并最終總的counts數(shù)目, !!!個別bam文件分割處的gene骂际,其counts可能有 1 count的差異(相比普通htseq-count)
awk 'BEGIN {OFS="\t"}NR==FNR{a[FNR]=$1;gene[$1]=$2;next}{gene[$1]+=$2} END{for (i in a) print a[i]"\t"gene[a[i]]}' Akap95_1_p*.geneCounts >Akap95_1_p.geneCounts

如下分別是分割后第2個文件最后一行和第3個文件首行:


1503987659492.png

1503987709136.png

這兩個reads都比對到了Aggf1的第5號外顯子上


1503988186481.png

1503988844150.png

載入IGV看看:(實驗組Akap8(Akap95)表達(dá)更高了疗琉??歉铝?)

1503992852945.png

GAPDH盈简、β-actin表達(dá)情況

1503992170600.png
1503992286983.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子柠贤,更是在濱河造成了極大的恐慌香浩,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件种吸,死亡現(xiàn)場離奇詭異弃衍,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)坚俗,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門镜盯,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人猖败,你說我怎么就攤上這事速缆。” “怎么了恩闻?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵艺糜,是天一觀的道長。 經(jīng)常有香客問我幢尚,道長破停,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任尉剩,我火速辦了婚禮真慢,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘理茎。我一直安慰自己黑界,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布皂林。 她就那樣靜靜地躺著朗鸠,像睡著了一般。 火紅的嫁衣襯著肌膚如雪础倍。 梳的紋絲不亂的頭發(fā)上烛占,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機(jī)與錄音沟启,去河邊找鬼扰楼。 笑死,一個胖子當(dāng)著我的面吹牛美浦,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播项栏,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼浦辨,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起流酬,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤币厕,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后芽腾,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體旦装,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年摊滔,在試婚紗的時候發(fā)現(xiàn)自己被綠了阴绢。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡艰躺,死狀恐怖呻袭,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情腺兴,我是刑警寧澤左电,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站页响,受9級特大地震影響篓足,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜闰蚕,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一栈拖、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧陪腌,春花似錦辱魁、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至强岸,卻和暖如春锻弓,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蝌箍。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工青灼, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人妓盲。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓杂拨,卻偏偏與公主長得像,于是被迫代替她去往敵國和親悯衬。 傳聞我的和親對象是個殘疾皇子弹沽,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 要求 實現(xiàn)這個功能的軟件也很多,還是煩請大家先自己搜索幾個教程,入門請統(tǒng)一用htseq-count策橘,對每個樣本都會...
    xuzhougeng閱讀 20,018評論 12 40
  • 作業(yè)要求 1.實現(xiàn)這個功能的軟件也很多炸渡,還是煩請大家先自己搜索幾個教程,入門請統(tǒng)一用htseq-count丽已,對每個...
    lxmic閱讀 8,178評論 1 8
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理蚌堵,服務(wù)發(fā)現(xiàn),斷路器沛婴,智...
    卡卡羅2017閱讀 134,599評論 18 139
  • 早上起來就趕來青島出差吼畏,到這邊才發(fā)現(xiàn)自己眼界太少了,要出來走走看看自己為什么還在原地瘸味,學(xué)習(xí)人家怎么經(jīng)營的宫仗,
    李代唐閱讀 126評論 0 0
  • 葉小胖閱讀 270評論 0 0