????哈嘍大家好企巢,好久不見枫慷。因為疫情原因很多小伙伴們已經居家辦公很久了,大家可能也在思考一個問題:在宅家期間沒有辦法做實驗的情況下包斑、如何利用公共數據庫做一些課題呢流礁?今天和大家分享一個關于利用RNA-seq數據分析病毒整合情況的應用。一個關于新冠病毒整合的具體應用實例如下罗丰,本文中的代碼也都參考自這篇文章神帅,大家可以結合自己具體的研究課題做一些嘗試。以下我們以HBV作為案例進行學習萌抵。
前期準備:
1找御、首先前往GENCODE官網(https://www.gencodegenes.org)下載人基因組注釋文件(“gencode.v38.annotation.gtf.gz“);同時前往NCBI官網下載HBV基因組注釋文件(“Sequence.gff3“)绍填。按照以下方式合并Human+HBV的注釋文件霎桅,命名為“combined.gtf“;
2讨永、同時合并Human+HBV的fasta文件滔驶。命名為“combined.fa“;
3卿闹、下載并安裝STAR揭糕、Samtools;
4锻霎、下載并安裝Picard(http://broadinstitute.github.io/picard)著角。
分析流程:
1、建立Human+HBV基因組索引文件index
# STAR --runMode genomeGenerate \
--runThreadN 50 \
--genomeDir /path/to/file/comnined_index \
--genomeFastaFiles /path/to/file/combined.fa \
--sjdbGTFfile /path/to/file/combined.gtf \
--sjdbOverhang 99
參數:
–runMode genomeGenerate:基因組生成模式
–runThreadN:啟用線程數
–genomeDir:索引輸出路徑
–genomeFastaFiles:參考基因組路徑
–sjdbGTFfile:參考基因組注釋文件
–sjdbOverhang:對于不同長度的讀取旋恼,理想值為--sjdbOverhangmax(ReadLength)-1吏口。在大多數情況下,默認值100與理想值類似冰更。
2产徊、采用STAR進行比對
# nohup STAR --outSAMtype BAM SortedByCoordinate \
--runThreadN 20 \
--genomeDir /path/to/file/combined_index \
--readFilesIn Seq_Data_out_R1.fastq.gz Seq_Data_out_R2.fastq.gz \
--readFilesCommand zcat \
--outFileNamePrefix ./ Seq_Data_Chimeric &
參數:
–runThreadN:啟用線程數
–genomeDir:索引路徑
–readFilesIn:輸入fastq的文件路徑
–outSAMtype BAM SortedByCoordinate:輸出排序的bam文件
–outFileNamePrefix:輸出文件前綴
3、提取Virus-Host嵌合序列
# mkdir Seq_Data_Chimeric1
# nohup STAR --runThreadN 10 \
--genomeDir /path/to/file/combined_index \
--readFilesIn Seq_Data_out_R1.fastq.gz Seq_Data_out_R2.fastq.gz \
--readFilesCommand zcat \
--alignIntronMax 1 \
--chimOutType Junctions SeparateSAMold WithinBAM HardClip \
--chimScoreJunctionNonGTAG 0 \
--alignSJstitchMismatchNmax -1 -1 -1 -1 \
--chimSegmentMin 25 \
--chimJunctionOverhangMin 25 \
--outSAMtype BAM SortedByCoordinate \
--outFileNamePrefix ./Seq_Data_Chimeric1 \
--outTmpDir ./Temp &
4蜀细、采用Samtools提取Viral reads
# samtools view -b Seq_Data_ChimericAligned.sortedByCoord.out.bam chrHBV > Seq_Data_Aligned.sortedByCoord.out.bam
5囚痴、采用Picard提取junction文件
# cut -f 10 Seq_Data_ChimericChimeric.out.junction > Seq_Data.junction.ids
# java -jar /path/to/file/picard.jar FilterSamReads I= Seq_Data_ChimericAligned.sortedByCoord.out.bam O=hv-Seq_Data-Chimeric.out.bam READ_LIST_FILE= Seq_Data.junction.ids FILTER=includeReadList
6、利用UCSC BLAT工具搜索嵌合序列中來自人類及病毒的序列
7、采用Circos (http://circos.ca)對junction文件進行可視化
參考文獻:
[1] Zhang L, Richards A, Barrasa MI, Hughes SH, Young RA, Jaenisch R. Reverse-transcribed SARS-CoV-2 RNA can integrate into the genome of cultured human cells and can be expressed in patient-derived tissues. Proc Natl Acad Sci U S A. 2021;118(21):e2105968118. doi:10.1073/pnas.2105968118
[2] Kazachenka A, Kassiotis G. SARS-CoV-2-Host Chimeric RNA-Sequencing Reads Do Not Necessarily Arise From Virus Integration Into the Host DNA. Front Microbiol. 2021;12:676693. Published 2021 Jun 2. doi:10.3389/fmicb.2021.676693
[3] Yin Y, Liu XZ, He X, Zhou LQ. Exogenous Coronavirus Interacts With Endogenous Retrotransposon in Human Cells.?Front Cell Infect Microbiol. 2021;11:609160. Published 2021 Feb 25. doi:10.3389/fcimb.2021.609160
[4] Sung WK, Zheng H, Li S, et al. Genome-wide survey of recurrent HBV integration in hepatocellular carcinoma.?Nat Genet. 2012;44(7):765-769. Published 2012 May 27. doi:10.1038/ng.2295
往期文章推薦:
干貨 | 一文教會你如何采用Linux系統處理RNAseq測序數據