干貨 | 如何利用RNA-seq數據分析病毒整合情況?


????哈嘍大家好企巢,好久不見枫慷。因為疫情原因很多小伙伴們已經居家辦公很久了,大家可能也在思考一個問題:在宅家期間沒有辦法做實驗的情況下包斑、如何利用公共數據庫做一些課題呢流礁?今天和大家分享一個關于利用RNA-seq數據分析病毒整合情況的應用。一個關于新冠病毒整合的具體應用實例如下罗丰,本文中的代碼也都參考自這篇文章神帅,大家可以結合自己具體的研究課題做一些嘗試。以下我們以HBV作為案例進行學習萌抵。

前期準備:

1找御、首先前往GENCODE官網(https://www.gencodegenes.org)下載人基因組注釋文件(“gencode.v38.annotation.gtf.gz“);同時前往NCBI官網下載HBV基因組注釋文件(“Sequence.gff3“)绍填。按照以下方式合并Human+HBV的注釋文件霎桅,命名為“combined.gtf“;

2讨永、同時合并Human+HBV的fasta文件滔驶。命名為“combined.fa“;

3卿闹、下載并安裝STAR揭糕、Samtools;

4锻霎、下載并安裝Picard(http://broadinstitute.github.io/picard)著角。

分析流程:

1、建立Human+HBV基因組索引文件index

# STAR --runMode genomeGenerate \

--runThreadN 50 \

--genomeDir /path/to/file/comnined_index \

--genomeFastaFiles /path/to/file/combined.fa \

--sjdbGTFfile /path/to/file/combined.gtf \

--sjdbOverhang 99

參數:

–runMode genomeGenerate:基因組生成模式

–runThreadN:啟用線程數

–genomeDir:索引輸出路徑

–genomeFastaFiles:參考基因組路徑

–sjdbGTFfile:參考基因組注釋文件

–sjdbOverhang:對于不同長度的讀取旋恼,理想值為--sjdbOverhangmax(ReadLength)-1吏口。在大多數情況下,默認值100與理想值類似冰更。

2产徊、采用STAR進行比對

# nohup STAR --outSAMtype BAM SortedByCoordinate \

--runThreadN 20 \

--genomeDir /path/to/file/combined_index \

--readFilesIn Seq_Data_out_R1.fastq.gz Seq_Data_out_R2.fastq.gz \

--readFilesCommand zcat \

--outFileNamePrefix ./ Seq_Data_Chimeric &

參數:

–runThreadN:啟用線程數

–genomeDir:索引路徑

–readFilesIn:輸入fastq的文件路徑

–outSAMtype BAM SortedByCoordinate:輸出排序的bam文件

–outFileNamePrefix:輸出文件前綴

3、提取Virus-Host嵌合序列

# mkdir Seq_Data_Chimeric1

# nohup STAR --runThreadN 10 \

--genomeDir /path/to/file/combined_index \

--readFilesIn Seq_Data_out_R1.fastq.gz Seq_Data_out_R2.fastq.gz \

--readFilesCommand zcat \

--alignIntronMax 1 \

--chimOutType Junctions SeparateSAMold WithinBAM HardClip \

--chimScoreJunctionNonGTAG 0 \

--alignSJstitchMismatchNmax -1 -1 -1 -1 \

--chimSegmentMin 25 \

--chimJunctionOverhangMin 25 \

--outSAMtype BAM SortedByCoordinate \

--outFileNamePrefix ./Seq_Data_Chimeric1 \

--outTmpDir ./Temp &

4蜀细、采用Samtools提取Viral reads

# samtools view -b Seq_Data_ChimericAligned.sortedByCoord.out.bam chrHBV > Seq_Data_Aligned.sortedByCoord.out.bam

5囚痴、采用Picard提取junction文件

# cut -f 10 Seq_Data_ChimericChimeric.out.junction > Seq_Data.junction.ids

# java -jar /path/to/file/picard.jar FilterSamReads I= Seq_Data_ChimericAligned.sortedByCoord.out.bam O=hv-Seq_Data-Chimeric.out.bam READ_LIST_FILE= Seq_Data.junction.ids FILTER=includeReadList

6、利用UCSC BLAT工具搜索嵌合序列中來自人類及病毒的序列

注:紅色為病毒來源序列审葬,藍色為人類基因序列深滚,綠色為重疊序列奕谭。

7、采用Circos (http://circos.ca)對junction文件進行可視化

參考文獻:

[1] Zhang L, Richards A, Barrasa MI, Hughes SH, Young RA, Jaenisch R. Reverse-transcribed SARS-CoV-2 RNA can integrate into the genome of cultured human cells and can be expressed in patient-derived tissues. Proc Natl Acad Sci U S A. 2021;118(21):e2105968118. doi:10.1073/pnas.2105968118

[2] Kazachenka A, Kassiotis G. SARS-CoV-2-Host Chimeric RNA-Sequencing Reads Do Not Necessarily Arise From Virus Integration Into the Host DNA. Front Microbiol. 2021;12:676693. Published 2021 Jun 2. doi:10.3389/fmicb.2021.676693

[3] Yin Y, Liu XZ, He X, Zhou LQ. Exogenous Coronavirus Interacts With Endogenous Retrotransposon in Human Cells.?Front Cell Infect Microbiol. 2021;11:609160. Published 2021 Feb 25. doi:10.3389/fcimb.2021.609160

[4] Sung WK, Zheng H, Li S, et al. Genome-wide survey of recurrent HBV integration in hepatocellular carcinoma.?Nat Genet. 2012;44(7):765-769. Published 2012 May 27. doi:10.1038/ng.2295

往期文章推薦:

干貨 | 如何對fastq文件進行批量處理痴荐?

干貨 | 一文教會你如何分析ATAC-seq數據

干貨 | 一文教會你如何采用Linux系統處理RNAseq測序數據

干貨 | 全基因組CRISPR文庫篩選數據分析——MAGeCKFlute

轉錄組數據分析之時序分析(maSigPro包)

如何將轉錄組數據mapping到自己的序列并可視化血柳?(HISAT2+Samtools+IGV)

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市生兆,隨后出現的幾起案子难捌,更是在濱河造成了極大的恐慌,老刑警劉巖鸦难,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件根吁,死亡現場離奇詭異,居然都是意外死亡合蔽,警方通過查閱死者的電腦和手機击敌,發(fā)現死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來拴事,“玉大人沃斤,你說我怎么就攤上這事∪邢” “怎么了衡瓶?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長牲证。 經常有香客問我哮针,道長,這世上最難降的妖魔是什么坦袍? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任诚撵,我火速辦了婚禮,結果婚禮上键闺,老公的妹妹穿的比我還像新娘。我一直安慰自己澈驼,他們只是感情好辛燥,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著缝其,像睡著了一般挎塌。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上内边,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天榴都,我揣著相機與錄音,去河邊找鬼漠其。 笑死嘴高,一個胖子當著我的面吹牛竿音,可吹牛的內容都是我干的。 我是一名探鬼主播拴驮,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼春瞬,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了套啤?” 一聲冷哼從身側響起宽气,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎潜沦,沒想到半個月后萄涯,有當地人在樹林里發(fā)現了一具尸體,經...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡唆鸡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年涝影,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片喇闸。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡袄琳,死狀恐怖,靈堂內的尸體忽然破棺而出燃乍,到底是詐尸還是另有隱情唆樊,我是刑警寧澤,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布刻蟹,位于F島的核電站逗旁,受9級特大地震影響,放射性物質發(fā)生泄漏舆瘪。R本人自食惡果不足惜片效,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望英古。 院中可真熱鬧淀衣,春花似錦、人聲如沸召调。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽唠叛。三九已至只嚣,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間艺沼,已是汗流浹背册舞。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留障般,地道東北人。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像禽捆,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子饶唤,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內容