利用TRUST4從bulk RNA-seq中重構免疫組數(shù)據(jù)

昨天老師發(fā)給我一篇生信女神Shirley Liu的文章薛耻,看了里面的內容之后感覺很興奮~它可以不做免疫組測序帕涌,直接從Bulk RNA-seq或者scRNA-seq里面重構得到免疫組的信息续挟。


中文翻譯

文章要點

  1. Although less sensitive than TCR-seq and BCR-seq, TRUST is able to identify the abundantly expressed and potentially more clonally expanded TCRs/BCRs in the RNA-seq data that are more likely to be involved in antigen binding
  2. Recent years have also seen other computational methods introduced for immune repertoire construction from RNA-seq data, including V’DJer, MiXCR, CATT and ImRep. These methods focus on reconstruction of complementary-determining region3 (CDR3), with limited ability to assemble full-length V(D)J receptor sequences, although CDR1 and CDR2 on the V sequence still contribute considerably to anti- gen recognition and binding.

TRUST4和其他重構算法相比,它的特點:

  1. 可利用FASTQ或BAM文件
  2. 可重構更長链方,甚至全長的TCR或BCR序列
  3. 更快更敏感

雖然TRUST4也可以從單細胞數(shù)據(jù)中重構,今天我主要想試一試從Bulk中重構

1. 安裝

git clone https://github.com/liulab-dfci/TRUST4.git
make
#我想添加環(huán)境變量修陡,但不知道問什么總是失敗
#所以決定再目標文件夾對run-trust4文件創(chuàng)建軟鏈接
ln -s /home/user/myh/install/TRUST4/run-trust4 /home/user/myh/**/TRUST4_outs
cd /home/user/myh/**/TRUST4_outs
./run-trust4
#可以使用

2.用法

官方Usage

Usage: ./run-trust4 [OPTIONS]
    Required:
        -b STRING: path to bam file
        -1 STRING -2 STRING: path to paired-end read files
        -u STRING: path to single-end read file
        -f STRING: path to the fasta file coordinate and sequence of V/D/J/C genes
    Optional:
        --ref STRING: path to detailed V/D/J/C gene reference file, such as from IMGT database. (default: not used). (recommended) 
        -o STRING: prefix of output files. (default: inferred from file prefix)
        --od STRING: the directory for output files. (default: ./)
        -t INT: number of threads (default: 1)
        --barcode STRING: if -b, bam field for barcode; if -1 -2/-u, file containing barcodes (defaul: not used)
        --barcodeRange INT INT CHAR: start, end(-1 for lenght-1), strand in a barcode is the true barcode (default: 0 -1 +)
        --barcodeWhitelist STRING: path to the barcode whitelist (default: not used)
        --read1Range INT INT: start, end(-1 for length-1) in -1/-u files for genomic sequence (default: 0 -1)
        --read2Range INT INT: start, end(-1 for length-1) in -2 files for genomic sequence (default: 0 -1)
        --UMI STRING: if -b, bam field for UMI; if -1 -2/-u, file containing UMIs (default: not used)
        --umiRange INT INT CHAR: start, end(-1 for lenght-1), strand in a UMI is the true UMI (default: 0 -1 +)
        --mateIdSuffixLen INT: the suffix length in read id for mate. (default: not used)
        --skipMateExtension: do not extend assemblies with mate information, useful for SMART-seq (default: not used)
        --abnormalUnmapFlag: the flag in BAM for the unmapped read-pair is nonconcordant (default: not set)
        --noExtraction: directly use the files from provided -1 -2/-u to assemble (default: extraction first)
        --repseq: the data is from TCR-seq or BCR-seq (default: not set)
        --outputReadAssignment: output read assignment results to the prefix_assign.out file (default: no output)
        --stage INT: start TRUST4 on specified stage (default: 0)
            0: start from beginning (candidate read extraction)
            1: start from assembly
            2: start from annotation
            3: start from generating the report table

我的數(shù)據(jù)是小鼠的數(shù)據(jù)沧侥,先用一個Fastq文件試一試

./run-trust4 -f /home/user/myh/install/TRUST4/mouse/GRCm38_bcrtcr.fa --ref /home/user/myh/install/TRUST4/mouse/mouse_IMGT+C.fa -1 /home/user/myh/raw_data/AEKIBULK/inputs/clean_data/KI_T/KIT11_1.clean.fq.gz -2 /home/user/myh/raw_data/AEKIBULK/inputs/clean_data/KI_T/KIT11_2.clean.fq.gz -o KIT11

可以通過-t調節(jié)可用的線程數(shù)

看到這里表示已經跑完了

因為我的數(shù)據(jù)里面是分選了T細胞和B細胞的可霎,但我用T細胞的數(shù)據(jù)跑也能重構到BCR的結果,Emmm

注意一下TRUST4跑完是不會主動生成文件夾的宴杀,所有的結果都散在那里……

XX_report.tsv里面有如下信息:

可直接用于immunarch

還會生成airr文件癣朗,也可用于immunarch分析

對于T細胞的結果,我把BCR鏈刪掉后旺罢,用immunarch進行后續(xù)分析

補充一點關于用VDJtools分析的內容
下載好VDJtools后
參考

1.Basic analysis
1.1 CalcBasicStats

java -jar /home/user/myh/install/VDJtools/vdjtools-1.2.1/vdjtools-1.2.1.jar CalcBasicStats -m /home/user/myh/raw_data/AEKIBULK/vdjtools/inputs/metadata.txt /home/user/myh/raw_data/AEKIBULK/vdjtools/outs
# /path to vdjtools/:  vdjtolls的安裝路徑
#output_prefix: 輸出路徑

VDJtools的格式
注意在CDR3aa里面旷余,要刪除out_of_frame的內容,不然vdjtools無法識別

1.2 CalcSegmentUsage

java -jar /home/user/myh/install/VDJtools/vdjtools-1.2.1/vdjtools-1.2.1.jar CalcSegmentUsage -p -f "group" -m /home/user/myh/raw_data/AEKIBULK/vdjtools/inputs/metadata.txt /home/user/myh/raw_data/AEKIBULK/vdjtools/outs 

#-p : 畫圖扁达,依賴于R包
#-f  : 指定分組依據(jù),分組信息在metadata文件中
#--plot-type png 輸出png圖片

1.3 CalcSpectratype
Calculates spectratype, that is, histogram of read counts by CDR3 nucleotide length.

java -jar /home/user/myh/install/VDJtools/vdjtools-1.2.1/vdjtools-1.2.1.jar CalcSpectratype -a -m /home/user/myh/raw_data/AEKIBULK/vdjtools/inputs/metadata.txt /home/user/myh/raw_data/AEKIBULK/vdjtools/outs
#-a :Will use CDR3 amino acid sequences for calculation instead of nucleotide ones

1.4 PlotFancySpectratype
Plots a spectratype that also displays CDR3 lengths for top N clonotypes in a given sample.This plot allows to detect the highly-expanded clonotypes.

java -jar /home/user/myh/install/VDJtools/vdjtools-1.2.1/vdjtools-1.2.1.jar PlotFancySpectratype -t 5 /home/user/myh/raw_data/AEKIBULK/vdjtools/inputs/AE_T_5.txt /home/user/myh/raw_data/AEKIBULK/vdjtools/outs
#-t:Number of top clonotypes to visualize. Should not exceed 20, default is 10
#單一樣本

下面這個不知道為啥沒跑出來

java -jar /home/user/myh/install/VDJtools/vdjtools-1.2.1/vdjtools-1.2.1.jar CalcPairwiseDistances -p -m /home/user/myh/raw_data/AEKIBULK/vdjtools/inputs/metadata.txt /home/user/myh/raw_data/AEKIBULK/vdjtools/outs
#-p: plot

如果要看單細胞的數(shù)據(jù):

./run-trust4 -b /home/user/myh/raw_data/***/possorted_genome_bam.bam -f /home/user/myh/install/TRUST4/human/hg38_bcrtcr.fa --ref /home/user/myh/install/TRUST4/human/human_IMGT+C.fa --barcode CB -o XXX
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
禁止轉載正卧,如需轉載請通過簡信或評論聯(lián)系作者。
  • 序言:七十年代末跪解,一起剝皮案震驚了整個濱河市炉旷,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌叉讥,老刑警劉巖窘行,帶你破解...
    沈念sama閱讀 219,427評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異图仓,居然都是意外死亡罐盔,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評論 3 395
  • 文/潘曉璐 我一進店門救崔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來惶看,“玉大人,你說我怎么就攤上這事六孵√季梗” “怎么了?”我有些...
    開封第一講書人閱讀 165,747評論 0 356
  • 文/不壞的土叔 我叫張陵狸臣,是天一觀的道長莹桅。 經常有香客問我,道長,這世上最難降的妖魔是什么诈泼? 我笑而不...
    開封第一講書人閱讀 58,939評論 1 295
  • 正文 為了忘掉前任懂拾,我火速辦了婚禮,結果婚禮上铐达,老公的妹妹穿的比我還像新娘岖赋。我一直安慰自己,他們只是感情好瓮孙,可當我...
    茶點故事閱讀 67,955評論 6 392
  • 文/花漫 我一把揭開白布唐断。 她就那樣靜靜地躺著,像睡著了一般杭抠。 火紅的嫁衣襯著肌膚如雪脸甘。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,737評論 1 305
  • 那天偏灿,我揣著相機與錄音丹诀,去河邊找鬼。 笑死翁垂,一個胖子當著我的面吹牛铆遭,可吹牛的內容都是我干的。 我是一名探鬼主播沿猜,決...
    沈念sama閱讀 40,448評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼枚荣,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了啼肩?” 一聲冷哼從身側響起橄妆,我...
    開封第一講書人閱讀 39,352評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎疟游,沒想到半個月后呼畸,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 45,834評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡颁虐,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,992評論 3 338
  • 正文 我和宋清朗相戀三年蛮原,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片另绩。...
    茶點故事閱讀 40,133評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡儒陨,死狀恐怖,靈堂內的尸體忽然破棺而出笋籽,到底是詐尸還是另有隱情蹦漠,我是刑警寧澤,帶...
    沈念sama閱讀 35,815評論 5 346
  • 正文 年R本政府宣布车海,位于F島的核電站笛园,受9級特大地震影響,放射性物質發(fā)生泄漏。R本人自食惡果不足惜研铆,卻給世界環(huán)境...
    茶點故事閱讀 41,477評論 3 331
  • 文/蒙蒙 一埋同、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧棵红,春花似錦凶赁、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至交煞,卻和暖如春咏窿,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背错敢。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評論 1 272
  • 我被黑心中介騙來泰國打工翰灾, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留缕粹,地道東北人稚茅。 一個月前我還...
    沈念sama閱讀 48,398評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像平斩,于是被迫代替她去往敵國和親亚享。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,077評論 2 355

推薦閱讀更多精彩內容