全長轉(zhuǎn)錄組-結(jié)構(gòu)分析

作者:Arno
審稿:童蒙
編輯:angelica

引言

Iso-seq測序經(jīng)初步分析獲得高質(zhì)量的轉(zhuǎn)錄本之后(全長轉(zhuǎn)錄本鑒定,全長轉(zhuǎn)錄本比對),便可以對轉(zhuǎn)錄本的結(jié)構(gòu)進行精確鑒定稿湿、注釋集峦。本次小編通過結(jié)合一個全長轉(zhuǎn)錄本后續(xù)分析的工具集Cupcake的使用方法,來給大家介紹一下Iso-seq測序得到高質(zhì)量轉(zhuǎn)錄本之后的一些分析评矩。


1. Cupcake安裝

在介紹Iso-seq后續(xù)分析之前叶堆,先來看一下Cupcake如何安裝使用。

Cupcake是一個Python和R腳本的合集斥杜,可直接通過python的形式安裝虱颗,其安裝方法可以參考下方代碼,目前均支持python2和python3版本蔗喂,以下示例均基于python2版本忘渔。

git clone https://github.com/Magdoll/cDNA_Cupcake.git
#export PATH=$PATH:<path_to_Cupcake>/sequence/
#export PATH=$PATH:<path_to_Cupcake>/rarefaction/
cd cDNA_Cupcake
#git checkout -b tofu2 tofu2_v21
python setup.py build
python setup.py install

2. 轉(zhuǎn)錄本去冗余

Iso-seq測序后經(jīng)過smrtlink和IsoSeq3軟件進行全長轉(zhuǎn)錄本鑒定后(cluster&polish),就獲得了高質(zhì)量的轉(zhuǎn)錄本(hq.isoform.fq)缰儿。這些高質(zhì)量轉(zhuǎn)錄本均為全長非嵌合的高質(zhì)量轉(zhuǎn)錄本(包含polyA畦粮,準確率>=0.99,至少2個全長序列支持)乖阵,但是因為IsoSeq3的聚類算法的敏感性和特異性宣赔,以及天然RNA5‘端的易降解的特性,得到的高質(zhì)量轉(zhuǎn)錄本中仍然存在冗余的轉(zhuǎn)錄本瞪浸,所以需要進一步去除儒将。

可使用Cupcake的“collapse_isoforms_by_sam.py”腳本,具體代碼以及說明可參考如下:

python ~/software/Python-2.7.8/bin/collapse_isoforms_by_sam.py --input sample.hq.fasta \
    --dun-merge-5-shorter --sam sample.sort.sam --prefix sample_name --min-coverage 0.85 \
    --min-identity 0.95 2>sample.collapse_isoforms.log
# --min-coverage --min-identity 為去冗余時的覆蓋率和一致性对蒲,默認為0.99和0.85可根據(jù)實際情況調(diào)整
# --dun-merge-5-shorter
# 得到的結(jié)果中sample.collapsed.group.txt為記錄合并冗余后的轉(zhuǎn)錄本信息,轉(zhuǎn)錄本格式為:PB.<loci_index>.<isoform_index>
# sample.ignored_ids.txt為去除的轉(zhuǎn)錄本信息
# sample.collapsed.rep.fq和sample.collapsed.gff分別為非冗余的轉(zhuǎn)錄本序列及其gff文件   

此種去冗余方式是針對的有參考基因組序列的樣本椅棺,需要用到跟參考基因組比對的Sam文件,如果沒有參考基因組齐蔽,可以使用CD-HIT對序列進行聚類去冗余两疚,具體方式可參考:https://github.com/Magdoll/cDNA_Cupcake/wiki/Tutorial:-Collapse-redundant-isoforms-without-genome

3. 轉(zhuǎn)錄本定量

得到unique的轉(zhuǎn)錄本之后,再結(jié)合前邊聚類分析得到report文件cluster_report.csv是可以計算出來每個unique轉(zhuǎn)錄本的count數(shù)目的含滴,Cupcake提供了計算的腳本诱渤。但是目前PacBio測序得到的CCS對于做定量來說數(shù)據(jù)還是不太夠的,建議用ONT平臺測序的數(shù)據(jù)去做定量谈况,ONT的數(shù)據(jù)reads足夠長勺美,數(shù)據(jù)量足夠多的。

python ~/software/Python-2.7.8/bin/get_abundance_post_collapse.py sample.collapsed sample.cluster_report.csv
#  sample.collapsed為樣本去冗余后的文件前綴名稱

4. 過濾5'端降解的轉(zhuǎn)錄本

去完冗余之后的轉(zhuǎn)錄本仍然存在一部分轉(zhuǎn)錄本比對到參考基因組的位置一致碑韵,但5'端長度不一致的轉(zhuǎn)錄本赡茸,這種情況是因為建庫過程中,使用的cDNA試劑盒并不會對5'端進行加帽處理祝闻,所以再整個過程中很可能會發(fā)生5'端的降解占卧,而發(fā)生降解的這些轉(zhuǎn)錄本是沒有任何生物學意義的,所以可以將5'端降解的轉(zhuǎn)錄本過濾掉,再用于后續(xù)的分析华蜒。過濾也可以使用Cupcake工具包提供的腳本辙纬。

python ~/software/Python-2.7.8/bin/filter_away_subset.py sample.collapsed
# sample.collapsed為樣本去冗余后的文件前綴名稱
# 得到輸出結(jié)果文件sample.collapsed.filtered.gff, sample.collapsed.filtered.abundance.txt,
# sample.collapsed.filtered.rep.fq

5. 融合基因分析

基因融合在基因組層面上可能由于基因組變異(染色體易位、中間缺失叭喜、染色體倒位)使得兩個不同基因的部分序列或全部序列融合到一起贺拣,形成一個新的基因,可能表達也可能不表達捂蕴;轉(zhuǎn)錄組層面上可能由于兩個基因轉(zhuǎn)錄產(chǎn)生的RNA譬涡,由于某種原因融合在一起,形成新的融合RNA啥辨,當然該RNA可能編碼蛋白也可能不編碼蛋白涡匀。
對于Iso-seq測序得到的轉(zhuǎn)錄本數(shù)據(jù),尋找融合基因委可,可以采用Cupcake 中的“fusion_finder.py” 這個腳本進行渊跋,鑒定的默認標準有如下4點:

  1. 比對到2個或更多位置;
  2. 比對到的每一個位置至少覆蓋5%的轉(zhuǎn)錄本着倾;
  3. 融合轉(zhuǎn)錄本(各個位置的相加)比對率至少99%以上拾酝;
  4. 每一個比對位置的距離至少10kb以上。
## Best practice for fusion transcript finding
 ## https://github.com/Magdoll/cDNA_Cupcake/wiki/Best-practice-for-fusion-transcript-finding
 gmap -D [dir] -d hg38 -f samse -n 0 input.fasta > input.fasta.gmap.sam
 minimap2 -ax splice -uf --secondary=no hg38.fa input.fasta > input.fasta.minimap2.sam
 
 sort -k 3,3 -k 4,4n input.fasta.minimap2.sam > input.fasta.minimap2.sorted.sam
 fusion_finder.py --input input.fasta -s input.fasta.minimap2.sorted.sam \
     --cluster_report cluster_report.csv \
      -o output.fusion \
     --min_locus_coverage_bp 500 -d 1000000

6. 結(jié)語

除了我們介紹的卡者,Cupcake有很多強大的cDNA序列分析功能蒿囤,關于其詳細的介紹可以查閱其githup倉庫:https://github.com/Magdoll/cDNA_Cupcake

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末崇决,一起剝皮案震驚了整個濱河市材诽,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌恒傻,老刑警劉巖脸侥,帶你破解...
    沈念sama閱讀 216,692評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異盈厘,居然都是意外死亡睁枕,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,482評論 3 392
  • 文/潘曉璐 我一進店門沸手,熙熙樓的掌柜王于貴愁眉苦臉地迎上來外遇,“玉大人,你說我怎么就攤上這事契吉√拢” “怎么了?”我有些...
    開封第一講書人閱讀 162,995評論 0 353
  • 文/不壞的土叔 我叫張陵捐晶,是天一觀的道長菲语。 經(jīng)常有香客問我妄辩,道長,這世上最難降的妖魔是什么谨究? 我笑而不...
    開封第一講書人閱讀 58,223評論 1 292
  • 正文 為了忘掉前任恩袱,我火速辦了婚禮泣棋,結(jié)果婚禮上胶哲,老公的妹妹穿的比我還像新娘。我一直安慰自己潭辈,他們只是感情好鸯屿,可當我...
    茶點故事閱讀 67,245評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著把敢,像睡著了一般寄摆。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上修赞,一...
    開封第一講書人閱讀 51,208評論 1 299
  • 那天婶恼,我揣著相機與錄音,去河邊找鬼柏副。 笑死勾邦,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的割择。 我是一名探鬼主播眷篇,決...
    沈念sama閱讀 40,091評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼荔泳!你這毒婦竟也來了蕉饼?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,929評論 0 274
  • 序言:老撾萬榮一對情侶失蹤玛歌,失蹤者是張志新(化名)和其女友劉穎昧港,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體支子,經(jīng)...
    沈念sama閱讀 45,346評論 1 311
  • 正文 獨居荒郊野嶺守林人離奇死亡创肥,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,570評論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了译荞。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瓤的。...
    茶點故事閱讀 39,739評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖吞歼,靈堂內(nèi)的尸體忽然破棺而出圈膏,到底是詐尸還是另有隱情,我是刑警寧澤篙骡,帶...
    沈念sama閱讀 35,437評論 5 344
  • 正文 年R本政府宣布稽坤,位于F島的核電站丈甸,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏尿褪。R本人自食惡果不足惜睦擂,卻給世界環(huán)境...
    茶點故事閱讀 41,037評論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望杖玲。 院中可真熱鬧顿仇,春花似錦、人聲如沸摆马。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,677評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽囤采。三九已至述呐,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間蕉毯,已是汗流浹背乓搬。 一陣腳步聲響...
    開封第一講書人閱讀 32,833評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留代虾,地道東北人进肯。 一個月前我還...
    沈念sama閱讀 47,760評論 2 369
  • 正文 我出身青樓,卻偏偏與公主長得像褐着,于是被迫代替她去往敵國和親坷澡。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,647評論 2 354

推薦閱讀更多精彩內(nèi)容