本次推送是文獻(xiàn)分享30的對應(yīng)內(nèi)容刹枉。
多聚腺苷酸化 (ployA) 是真核生物中一種重要的轉(zhuǎn)錄后調(diào)控機(jī)制幻工,它調(diào)節(jié) pre-mRNA的成熟煞茫。?
對于很多基因來說态罪,該過程可以發(fā)生在多個(gè)位點(diǎn)噩茄,即產(chǎn)生不同長度的成熟mRNA,這被稱為選擇性多聚腺苷酸化(APA)复颈。?
APA事件已經(jīng)被證實(shí)在基因組中廣泛存在绩聘,如超過70%的擬南芥基因被發(fā)現(xiàn)有大于1個(gè)的ployA位點(diǎn)。?
雖然在多數(shù)情況下APA并不會(huì)改變mRNA的蛋白編碼區(qū)域耗啦,但卻可能會(huì)破壞位于3'-UTRs區(qū)域中的重要順式調(diào)控元件凿菩,最終導(dǎo)致mRNA穩(wěn)定性、定位和翻譯效率的改變帜讲。
Fig 1
基于poly(A)位點(diǎn)位置的不同衅谷,APA主要分為3大類(Fig 1):
(1)編碼區(qū)域APA[CR-APA(exon)],指poly(A)位點(diǎn)位于編碼區(qū)域似将,通常涉及可變剪接获黔,會(huì)產(chǎn)生具有不同編碼序列的mRNA異構(gòu)體,因此會(huì)產(chǎn)生不同的蛋白在验;
(2)內(nèi)含子APA[IPA玷氏,CR-APA(intron)],指poly(A)位點(diǎn)位于內(nèi)含子區(qū)域腋舌,會(huì)產(chǎn)生截?cái)嗟木幋a區(qū)盏触,因此可能會(huì)翻譯缺失C端結(jié)構(gòu)域且具有新功能的蛋白
(3)3'-UTRs-APA,是最常見的APA块饺,該類APA會(huì)導(dǎo)致產(chǎn)生多種具有不同3'-UTRs長度的mRNA異構(gòu)體赞辩,但同時(shí)并不影響蛋白編碼序列。
Fig 2
文獻(xiàn)分享30中授艰,作者利用APAtrap軟件(Fig 2)來檢測APA事件辨嗽,本次推送將介紹該軟件的原理和操作。
APAtrap軟件鑒定APA的原理
Fig 3
這個(gè)軟件第一步先是檢測3‘UTR(Fig 3)想诅,其實(shí)這個(gè)信息在我們研究的物種的基因組注釋文件中是有的召庞,但是一般的基因組注釋是比較粗糙的岛心,基因結(jié)構(gòu)注釋總會(huì)存在大量的問題来破,對于一般的分析可能影響不大,但是我們現(xiàn)在研究的是APA還是有很大影響的忘古,所以這一步相當(dāng)于是對基因組注釋的校正徘禁。我們先是把基因組的注釋文件輸入進(jìn)去,它會(huì)識(shí)別出已經(jīng)注釋的3‘UTR區(qū)髓堪,然后對這個(gè)區(qū)域上下延申10kb送朱,然后從這個(gè)范圍的開頭以100bp為窗格娘荡、以1bp為步長,滑動(dòng)檢測這個(gè)范圍的reads驶沼。比如這個(gè)圖上炮沐,藍(lán)色是基因組的注釋情況,紅色是校正后的情況回怜,有可能是本來沒有注釋出3‘UTR大年,根據(jù)我們的轉(zhuǎn)錄組數(shù)據(jù)注釋到了,有可能是之前的注釋過長或者過短玉雾,最后整合這些情況得到修正好的3‘UTR翔试。
Fig 4
第二步是在這個(gè)修正后的3‘UTR,將它的最末端稱為“遠(yuǎn)端polyA位點(diǎn)”复旬,然后對3‘UTR從5’端向3’端以100bp為窗格垦缅、以1bp為步長,滑動(dòng)檢測這個(gè)范圍的reads驹碍,目的是檢測覆蓋深度顯著下降的位置壁涎,這些位置被認(rèn)定為潛在的ployA位點(diǎn)(Fig 4)。對于兩個(gè)條件的比較志秃,輸入的是多個(gè)轉(zhuǎn)錄組數(shù)據(jù)粹庞,所以對這些所有的數(shù)據(jù)在100bp以內(nèi)的polyA位點(diǎn)被合并,認(rèn)定為一個(gè)ployA位點(diǎn)洽损。需要注意這里檢測到的APA位點(diǎn)是前面介紹的三種類型中最主要的一種庞溜,即3'-UTRs-APA
Fig 5
第三步是用來檢測處理和對照是否存在差異APA的情況。
比如在給定的示意圖中(Fig 5)碑定,有A和B兩個(gè)樣本流码,在A樣本中根據(jù)深度的驟減鑒定到兩個(gè)潛在的APA位點(diǎn),它們的3‘UTR長度分別為L1和L2延刘,在sampleB中也鑒定到兩個(gè)潛在的APA漫试,它們的3‘UTR長度分別為L3和L4,就長度而言碘赖,L1<l2<l3<l4< span="">驾荣,固定這個(gè)排序,然后表征出樣本A和B在這4個(gè)APA的使用情況普泡。然后作者計(jì)算了皮爾遜相關(guān)系數(shù)播掷,該值為正表明B樣本比A樣本偏好更長的3‘UTR,為負(fù)說明A樣本偏好更長的3‘UTR撼班。
Fig 6
最后根據(jù)這兩個(gè)指標(biāo)來判定是否是差異表達(dá)的APA基因(Fig 6)歧匈。第一個(gè)是差異的百分比,作者在文章中建議的閾值是大于0.2砰嘁,第二個(gè)是校正后的P值件炉,小于0.05.
Fig 7
還有一個(gè)點(diǎn)需要注意勘究,作者針對具有長3‘UTR的基因組和具有短3‘UTR的基因組提出了不同的建議參數(shù)。針對長3‘UTR基因組舉的例子是人斟冕,用到了100bp的窗口大小和對參考基因組注釋的3‘UTR左右延申10kb的檢測范圍口糕,短3‘UTR基因組舉的例子是水稻,用50bp的窗口和左右延申5kb.
軟件實(shí)操
軟件官方鏈接:
https://sourceforge.net/p/apatrap/wiki/User%20Manual/
01 鑒定3'UTR
Fig 8
-i ?short reads mapping result in bedgraph/wig format, can accept single file or multiple files.?
-m ?gene model file in bed format.?
-o ?file store the information of extended 3'UTR in bed format.
輸入數(shù)據(jù)準(zhǔn)備:配置合適的基因組注釋文件
Fig 9
02 鑒定APA
Fig10
-i ?short reads mapping result in bedgraph/wig format, can accept single file or multiple files.?
-g ?number of groups (treatments/conditions) of the input files, e.g. -g 2.?
-n ?number of files(biological replicates) in each group (treatment/condition), e.g. -n 1 1.?
-u ?3'UTR annotation file in bed format.?
-o ?information of the predicted APA sites and their usage.
03 差異APA分析
Fig 11
輸出結(jié)果
本文使用 文章同步助手 同步