mRNA-seq學(xué)習(xí)(三):htseq-count計(jì)數(shù)

htseq-count計(jì)數(shù)的相關(guān)內(nèi)容前面在不同的學(xué)習(xí)階段寫(xiě)過(guò)兩次粗蔚,分別是合并htseq-count的結(jié)果得到count matrixhtseq-count的一個(gè)坑乃沙,其中第二篇中關(guān)于“坑”的總結(jié)我覺(jué)得還是挺用的士败。

1. 基因表達(dá)定量的三個(gè)水平

  • 基因
  • 轉(zhuǎn)錄本
  • 外顯子

基因和外顯子的定義明晰村怪,統(tǒng)計(jì)起來(lái)相較于轉(zhuǎn)錄本簡(jiǎn)單析藕;而由于不同的轉(zhuǎn)錄本往往存在外顯子的重疊慷垮,統(tǒng)計(jì)起來(lái)就比較困難了阿纤【涔啵基因水平的定量常見(jiàn)。

2. 四種不同的reads計(jì)數(shù)思路

  1. 當(dāng)比對(duì)到有注釋的基因組時(shí)欠拾,基于注釋文件統(tǒng)計(jì)reads
  2. 基于參考基因組的轉(zhuǎn)錄本組裝時(shí)胰锌,如Cufflinks會(huì)提供注釋文件, 且能夠發(fā)現(xiàn)新的基因和轉(zhuǎn)錄本。這種情況下清蚀,也要結(jié)合軟件給的注釋文件計(jì)數(shù)
  3. 比對(duì)到轉(zhuǎn)錄本序列可以直接計(jì)數(shù)匕荸,不借助注釋文件
  4. 重頭組裝出轉(zhuǎn)錄本序列,接下來(lái)同3

3. 哪些因素影響了feature內(nèi)的reads數(shù)

  • 測(cè)序深度
  • feature長(zhǎng)度
  • feature復(fù)雜度
  • GC偏好
  • 序列特異偏好

常將前兩者考慮在標(biāo)準(zhǔn)化之內(nèi)

4. 關(guān)于HTSeq

4.1 如何處理多比對(duì)reads

HTSeq忽略掉這些多比對(duì)reads

4.2 HTSeq的計(jì)數(shù)模式

default: union

4.3 HTSeq的使用
usage: htseq-count [options] alignment_file gff_file

-f {sam,bam}  (default: sam)
-r {pos,name}  (default: name)
-s {yes,no,reverse}  (default: yes) #此處關(guān)于選項(xiàng)-s為我自己的認(rèn)識(shí)枷邪,不一定對(duì)
    #數(shù)據(jù)是否來(lái)源于鏈特異性測(cè)序榛搔,鏈特異性是指在建庫(kù)測(cè)序時(shí),只測(cè)mRNA反轉(zhuǎn)錄出的cDNA序列东揣,而不測(cè)該cDNA序列反向互補(bǔ)的另一條DNA序列践惑;換句話說(shuō)就是,鏈特異性能更準(zhǔn)確反映出mRNA的序列信息
    #我們知道在gff/gtf中第7列是+-信息嘶卧,+表示來(lái)源于參考基因組序列正鏈尔觉,-表示參考基因組序列的反向互補(bǔ)鏈
    #sam/bam文件的第2列是flag信息,也可以看出比對(duì)到正鏈還是負(fù)鏈
    #stranded=no芥吟,無(wú)鏈特異性侦铜,一條reads通過(guò)flag列知道比對(duì)到+還是-鏈后专甩,不管是不是和gff/gtf相匹配,都算是這個(gè)feature中的
    #stranded=yes, 且se測(cè)序钉稍,要和gff/gtf相匹配涤躲,才算是這個(gè)feature中的
    #stranded=yes, 且pe測(cè)序,要和gff/gtf相匹配贡未,才算是這個(gè)feature中的
    #stranded=reverse种樱,是yes的相反,這時(shí)不是和gff/gtf相匹配了俊卤,而是恰好相反嫩挤,可能源于另一種鏈特異性,只測(cè)cDNA序列反向互補(bǔ)的另一條DNA序列
-a MINAQUAL (default: 10)
    #忽略比對(duì)質(zhì)量低于此值的比對(duì)結(jié)果
-t FEATURETYPE 
    #feature type (3rd column in GFF file) to be used, all features of other type are ignored (default, suitable for Ensembl GTF files: exon)
    #沒(méi)想到這個(gè)還能自己設(shè)置
-i IDATTR
    #GFF attribute to be used as feature ID (default, suitable for Ensembl GTF files: gene_id)
-m {union,intersection-strict,intersection-nonempty} (default: union)
4.4 HTSeq輸出結(jié)果
$ ls *count
SRR3286802.count  SRR3286803.count  SRR3286804.count  SRR3286805.count  SRR3286806.count  SRR3286807.count

#基于相同gff/gtf得到的計(jì)數(shù)文件消恍,行數(shù)相同岂昭,第一列(基因名)相同
$ wc -l *count
  37889 SRR3286802.count
  37889 SRR3286803.count
  37889 SRR3286804.count
  37889 SRR3286805.count
  37889 SRR3286806.count
  37889 SRR3286807.count

#且最后5列統(tǒng)計(jì)了整個(gè)計(jì)數(shù)過(guò)程沒(méi)有使用到的reads
$ tail -n 5 SRR3286802.count
__no_feature    237560
__ambiguous 1846779
__too_low_aQual 0
__not_aligned   1323985
__alignment_not_unique  2015872
  • based on the NH tag in the BAM file, they aligned to more than one place in the reference genome (alignment_not_unique);
  • they did not align at all (not_aligned);
  • their alignment quality was lower than the user-specified threshold (too_low_aQual);
  • their alignment overlapped with more than one gene (ambiguous);
  • their alignment did not overlap any gene (no_feature).
4.5 什么情況下使用

因?yàn)槭腔趃ff/gtf的feature來(lái)計(jì)數(shù),所以比對(duì)策略應(yīng)該是往參考基因組上比對(duì)哺哼。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末佩抹,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子取董,更是在濱河造成了極大的恐慌棍苹,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,682評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件茵汰,死亡現(xiàn)場(chǎng)離奇詭異枢里,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)蹂午,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)栏豺,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人豆胸,你說(shuō)我怎么就攤上這事奥洼。” “怎么了晚胡?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,083評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵灵奖,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我估盘,道長(zhǎng)瓷患,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,763評(píng)論 1 295
  • 正文 為了忘掉前任遣妥,我火速辦了婚禮擅编,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己爱态,他們只是感情好谭贪,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著肢藐,像睡著了一般故河。 火紅的嫁衣襯著肌膚如雪吱韭。 梳的紋絲不亂的頭發(fā)上吆豹,一...
    開(kāi)封第一講書(shū)人閱讀 51,624評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音理盆,去河邊找鬼痘煤。 笑死,一個(gè)胖子當(dāng)著我的面吹牛猿规,可吹牛的內(nèi)容都是我干的衷快。 我是一名探鬼主播,決...
    沈念sama閱讀 40,358評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼姨俩,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼蘸拔!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起环葵,我...
    開(kāi)封第一講書(shū)人閱讀 39,261評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤调窍,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后张遭,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體邓萨,經(jīng)...
    沈念sama閱讀 45,722評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年菊卷,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了缔恳。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,030評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡洁闰,死狀恐怖歉甚,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情扑眉,我是刑警寧澤纸泄,帶...
    沈念sama閱讀 35,737評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站襟雷,受9級(jí)特大地震影響刃滓,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜耸弄,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評(píng)論 3 330
  • 文/蒙蒙 一咧虎、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧计呈,春花似錦砰诵、人聲如沸征唬。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,941評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)总寒。三九已至,卻和暖如春理肺,著一層夾襖步出監(jiān)牢的瞬間摄闸,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,057評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工妹萨, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留年枕,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,237評(píng)論 3 371
  • 正文 我出身青樓乎完,卻偏偏與公主長(zhǎng)得像熏兄,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子树姨,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容