全長轉(zhuǎn)錄組-結(jié)構(gòu)分析

作者：Arno
審稿：童蒙
編輯：angelica

引言

Iso-seq測序經(jīng)初步分析獲得高質(zhì)量的轉(zhuǎn)錄本之后（全長轉(zhuǎn)錄本鑒定，全長轉(zhuǎn)錄本比對），便可以對轉(zhuǎn)錄本的結(jié)構(gòu)進行精確鑒定稿湿、注釋集峦。本次小編通過結(jié)合一個全長轉(zhuǎn)錄本后續(xù)分析的工具集Cupcake的使用方法，來給大家介紹一下Iso-seq測序得到高質(zhì)量轉(zhuǎn)錄本之后的一些分析评矩。

1. Cupcake安裝

在介紹Iso-seq后續(xù)分析之前叶堆，先來看一下Cupcake如何安裝使用。

Cupcake是一個Python和R腳本的合集斥杜，可直接通過python的形式安裝虱颗，其安裝方法可以參考下方代碼，目前均支持python2和python3版本蔗喂，以下示例均基于python2版本忘渔。

git clone https://github.com/Magdoll/cDNA_Cupcake.git
#export PATH=$PATH:<path_to_Cupcake>/sequence/
#export PATH=$PATH:<path_to_Cupcake>/rarefaction/
cd cDNA_Cupcake
#git checkout -b tofu2 tofu2_v21
python setup.py build
python setup.py install

2. 轉(zhuǎn)錄本去冗余

Iso-seq測序后經(jīng)過smrtlink和IsoSeq3軟件進行全長轉(zhuǎn)錄本鑒定后（cluster&polish），就獲得了高質(zhì)量的轉(zhuǎn)錄本（hq.isoform.fq）缰儿。這些高質(zhì)量轉(zhuǎn)錄本均為全長非嵌合的高質(zhì)量轉(zhuǎn)錄本（包含polyA畦粮，準確率>=0.99，至少2個全長序列支持）乖阵，但是因為IsoSeq3的聚類算法的敏感性和特異性宣赔，以及天然RNA5‘端的易降解的特性，得到的高質(zhì)量轉(zhuǎn)錄本中仍然存在冗余的轉(zhuǎn)錄本瞪浸，所以需要進一步去除儒将。

可使用Cupcake的“collapse_isoforms_by_sam.py”腳本，具體代碼以及說明可參考如下：

python ~/software/Python-2.7.8/bin/collapse_isoforms_by_sam.py --input sample.hq.fasta \
    --dun-merge-5-shorter --sam sample.sort.sam --prefix sample_name --min-coverage 0.85 \
    --min-identity 0.95 2>sample.collapse_isoforms.log
# --min-coverage --min-identity 為去冗余時的覆蓋率和一致性对蒲，默認為0.99和0.85可根據(jù)實際情況調(diào)整
# --dun-merge-5-shorter
# 得到的結(jié)果中sample.collapsed.group.txt為記錄合并冗余后的轉(zhuǎn)錄本信息,轉(zhuǎn)錄本格式為：PB.<loci_index>.<isoform_index>
# sample.ignored_ids.txt為去除的轉(zhuǎn)錄本信息
# sample.collapsed.rep.fq和sample.collapsed.gff分別為非冗余的轉(zhuǎn)錄本序列及其gff文件

此種去冗余方式是針對的有參考基因組序列的樣本椅棺，需要用到跟參考基因組比對的Sam文件，如果沒有參考基因組齐蔽，可以使用CD-HIT對序列進行聚類去冗余两疚，具體方式可參考：https://github.com/Magdoll/cDNA_Cupcake/wiki/Tutorial:-Collapse-redundant-isoforms-without-genome

3. 轉(zhuǎn)錄本定量

得到unique的轉(zhuǎn)錄本之后，再結(jié)合前邊聚類分析得到report文件cluster_report.csv是可以計算出來每個unique轉(zhuǎn)錄本的count數(shù)目的含滴，Cupcake提供了計算的腳本诱渤。但是目前PacBio測序得到的CCS對于做定量來說數(shù)據(jù)還是不太夠的，建議用ONT平臺測序的數(shù)據(jù)去做定量谈况，ONT的數(shù)據(jù)reads足夠長勺美，數(shù)據(jù)量足夠多的。

python ~/software/Python-2.7.8/bin/get_abundance_post_collapse.py sample.collapsed sample.cluster_report.csv
#  sample.collapsed為樣本去冗余后的文件前綴名稱

4. 過濾5'端降解的轉(zhuǎn)錄本

去完冗余之后的轉(zhuǎn)錄本仍然存在一部分轉(zhuǎn)錄本比對到參考基因組的位置一致碑韵，但5'端長度不一致的轉(zhuǎn)錄本赡茸，這種情況是因為建庫過程中，使用的cDNA試劑盒并不會對5'端進行加帽處理祝闻，所以再整個過程中很可能會發(fā)生5'端的降解占卧，而發(fā)生降解的這些轉(zhuǎn)錄本是沒有任何生物學意義的，所以可以將5'端降解的轉(zhuǎn)錄本過濾掉，再用于后續(xù)的分析华蜒。過濾也可以使用Cupcake工具包提供的腳本辙纬。

python ~/software/Python-2.7.8/bin/filter_away_subset.py sample.collapsed
# sample.collapsed為樣本去冗余后的文件前綴名稱
# 得到輸出結(jié)果文件sample.collapsed.filtered.gff, sample.collapsed.filtered.abundance.txt,
# sample.collapsed.filtered.rep.fq

5. 融合基因分析

基因融合在基因組層面上可能由于基因組變異（染色體易位、中間缺失叭喜、染色體倒位）使得兩個不同基因的部分序列或全部序列融合到一起贺拣，形成一個新的基因，可能表達也可能不表達捂蕴；轉(zhuǎn)錄組層面上可能由于兩個基因轉(zhuǎn)錄產(chǎn)生的RNA譬涡，由于某種原因融合在一起，形成新的融合RNA啥辨，當然該RNA可能編碼蛋白也可能不編碼蛋白涡匀。
對于Iso-seq測序得到的轉(zhuǎn)錄本數(shù)據(jù)，尋找融合基因委可，可以采用Cupcake 中的“fusion_finder.py” 這個腳本進行渊跋，鑒定的默認標準有如下4點：

比對到2個或更多位置；
比對到的每一個位置至少覆蓋5%的轉(zhuǎn)錄本着倾；
融合轉(zhuǎn)錄本（各個位置的相加）比對率至少99%以上拾酝；
每一個比對位置的距離至少10kb以上。

## Best practice for fusion transcript finding
 ## https://github.com/Magdoll/cDNA_Cupcake/wiki/Best-practice-for-fusion-transcript-finding
 gmap -D [dir] -d hg38 -f samse -n 0 input.fasta > input.fasta.gmap.sam
 minimap2 -ax splice -uf --secondary=no hg38.fa input.fasta > input.fasta.minimap2.sam
 
 sort -k 3,3 -k 4,4n input.fasta.minimap2.sam > input.fasta.minimap2.sorted.sam
 fusion_finder.py --input input.fasta -s input.fasta.minimap2.sorted.sam \
     --cluster_report cluster_report.csv \
      -o output.fusion \
     --min_locus_coverage_bp 500 -d 1000000

6. 結(jié)語

除了我們介紹的卡者，Cupcake有很多強大的cDNA序列分析功能蒿囤，關于其詳細的介紹可以查閱其githup倉庫：https://github.com/Magdoll/cDNA_Cupcake 。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末崇决，一起剝皮案震驚了整個濱河市材诽，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌恒傻，老刑警劉巖脸侥，帶你破解...
沈念sama閱讀 216,692評論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異盈厘，居然都是意外死亡睁枕，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,482評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門沸手，熙熙樓的掌柜王于貴愁眉苦臉地迎上來外遇，“玉大人，你說我怎么就攤上這事契吉√拢” “怎么了？”我有些...
開封第一講書人閱讀 162,995評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵捐晶，是天一觀的道長菲语。經(jīng)常有香客問我妄辩，道長，這世上最難降的妖魔是什么谨究？我笑而不...
開封第一講書人閱讀 58,223評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任恩袱，我火速辦了婚禮泣棋，結(jié)果婚禮上胶哲，老公的妹妹穿的比我還像新娘。我一直安慰自己潭辈，他們只是感情好鸯屿，可當我...
茶點故事閱讀 67,245評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著把敢，像睡著了一般寄摆。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上修赞，一...
開封第一講書人閱讀 51,208評論 1贊 299
城市分裂傳說
那天婶恼，我揣著相機與錄音，去河邊找鬼柏副。笑死勾邦，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的割择。我是一名探鬼主播眷篇，決...
沈念sama閱讀 40,091評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼荔泳！你這毒婦竟也來了蕉饼？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,929評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤玛歌，失蹤者是張志新（化名）和其女友劉穎昧港，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體支子，經(jīng)...
沈念sama閱讀 45,346評論 1贊 311
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡创肥，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,570評論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了译荞。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瓤的。...
茶點故事閱讀 39,739評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖吞歼，靈堂內(nèi)的尸體忽然破棺而出圈膏，到底是詐尸還是另有隱情，我是刑警寧澤篙骡，帶...
沈念sama閱讀 35,437評論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布稽坤，位于F島的核電站丈甸，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏尿褪。R本人自食惡果不足惜睦擂，卻給世界環(huán)境...
茶點故事閱讀 41,037評論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望杖玲。院中可真熱鬧顿仇，春花似錦、人聲如沸摆马。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,677評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽囤采。三九已至述呐，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間蕉毯，已是汗流浹背乓搬。一陣腳步聲響...
開封第一講書人閱讀 32,833評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留代虾，地道東北人进肯。一個月前我還...
沈念sama閱讀 47,760評論 2贊 369
代替公主和親
正文我出身青樓，卻偏偏與公主長得像褐着，于是被迫代替她去往敵國和親坷澡。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,647評論 2贊 354