## lncRNA分析完全指北

Step1:鏈特異性比對并組裝轉(zhuǎn)錄本

用HISAT2對每個樣本進(jìn)行鏈特異性比對衡未,隨后利用StringTie對每個樣本的轉(zhuǎn)錄本進(jìn)行單獨(dú)組裝

mkdir cleandata hisat2 stringtie count target
#利用HISAT2進(jìn)行鏈特異性比對,--rna-strandness RF
#以sample1為例
hisat2 --dta -x ~/genome/hisat2_index/genome.hisat2 -p 4 --rna-strandness RF -1 ./cleandata/lnc.rna.sample1_R1.fq.gz -2 ./cleandata/lnc.rna.sample1_R2.fq.gz -S ./hisat2/lnc.rna.sample1.sam
samtools view -@ 4 -bS -q 30 ./hisat2/lnc.rna.sample1.sam | samtools sort -@ 4 - -o ./hisat2/lnc.rna.sample1.bam
rm ./hisat2/lnc.rna.sample1.sam
samtools flagstat -@ 4 ./hisat2/lnc.rna.sample1.bam > ./hisat2/lnc.rna.sample1.stat.txt

#利用StringTie對每個樣本單獨(dú)組裝轉(zhuǎn)錄本
stringtie -p 4 --rf -G ~/genome/genome.gff3 -o ./stringtie/lnc.rna.sample1.gtf -l lnc.rna.sample1 ./hisat2/lnc.rna.sample1.bam

Step2:過濾lncRNA

將所有樣本組裝的轉(zhuǎn)錄本合并青责,隨后根據(jù)lncRNA的特征進(jìn)行過濾

#利用StringTie將所有樣本的轉(zhuǎn)錄本合并
##其中g(shù)tf.list.txt包含所有要合并的gtf文件,一行一個
ls ./stringtie/*gtf > gtf.list.txt
stringtie --merge -p 4 --rf -G ~/genome/genome.gff3 -o ./stringtie/all.merged.gtf -l lncrna gtf.list.txt

#利用gffcompare將組裝好的轉(zhuǎn)錄本與原始基因注釋文件進(jìn)行比較
gffcompare -r ~/genome/genome.gff3 -o ./stringtie/gffcmp ./stringtie/all.merged.gtf

#根據(jù)gffcompare的結(jié)果過濾轉(zhuǎn)錄本,根據(jù)lncRNA的特性管呵,只保留calss code為i,u,x,o并且長度大于200bp的轉(zhuǎn)錄本
#i: 完全包含在參考的內(nèi)含子內(nèi)
#u: 位于基因間區(qū)
#x: 與參考外顯子存在overlap但與參考轉(zhuǎn)錄本方向相反
#o: 與參考外顯子存在overlap且與參考轉(zhuǎn)錄本方向一致
awk '$3=="i" || $3=="u" || $3=="x" || $3=="o" && $10>200 {print "\"" $5 "\""}' ./stringtie/gffcmp.all.merged.gtf.tmap > ./stringtie/filter.iuxo.l200.transcript.id.txt
LC_ALL=C fgrep -f ./stringtie/filter.iuxo.l200.transcript.id.txt ./stringtie/gffcmp.annotated.gtf > ./stringtie/filter.iuxo.l200.gtf

#根據(jù)gtf文件提取轉(zhuǎn)錄本的序列
gffread ./stringtie/filter.iuxo.l200.gtf -g ~/genome/genome.fa -w ./stringtie/filter.iuxo.l200.transcript.fa

#預(yù)測轉(zhuǎn)錄本的編碼能力
##CPC2袭蝗,依賴python3
python ~/software/CPC2/CPC2_standalone-1.0.1/bin/CPC2.py -i ./stringtie/filter.iuxo.l200.transcript.fa -o ./stringtie/CPC2.out --ORF

#CNCI唤殴,依賴python2.7
#-m pl指定模型為植物
python2.7 ~/software/CNCI/CNCI-master/CNCI.py -f ./stringtie/filter.iuxo.l200.transcript.fa -o ./stringtie/CNCI.out -p 4 -m pl

##LGC,依賴python2.7
python2.7 ~/software/LGC/LGC-master/scr/lgc-1.0.0.py ./stringtie/filter.iuxo.l200.transcript.fa ./stringtie/LGC.out.txt

#過濾掉具有蛋白編碼能力的轉(zhuǎn)錄本
awk '$9=="noncoding"{print "\"" $1 "\""}' ./stringtie/CPC2.out.txt > ./stringtie/tmp.CPC2.txt
awk '$5=="Non-coding"{print "\"" $1 "\""}' ./stringtie/LGC.out.txt > ./stringtie/tmp.LGC.txt
awk '$3=="noncoding"{print "\"" $1 "\""}' ./stringtie/CNCI.out/CNCI.index > ./stringtie/tmp.CNCI.txt
cat ./stringtie/tmp.CPC2.txt ./stringtie/tmp.LGC.txt | sort | uniq -d > ./stringtie/tmp1
cat ./stringtie/tmp.CPC2.txt ./stringtie/tmp.CNCI.txt | sort | uniq -d > ./stringtie/tmp2
cat ./stringtie/tmp1 ./stringtie/tmp2 | sort | uniq -d > ./stringtie/filter.iuxo.l200.ncd.transcript.txt
LC_ALL=C fgrep -f ./stringtie/filter.iuxo.l200.ncd.transcript.txt ./stringtie/filter.iuxo.l200.gtf > ./stringtie/filter.iuxo.l200.ncd.gtf
gffread ./stringtie/filter.iuxo.l200.ncd.gtf -g ~/genome/genome.fa -w ./stringtie/filter.iuxo.l200.ncd.transcript.fa

#利用pfam數(shù)據(jù)庫進(jìn)行過濾
##用Transeq將轉(zhuǎn)錄本翻譯為6種可能的蛋白序列
transeq ./stringtie/filter.iuxo.l200.ncd.transcript.fa ./stringtie/filter.iuxo.l200.ncd.pep6.fa -frame=6
##設(shè)置E-value < 1e-5為閾值
pfam_scan.pl -cpu 4 -fasta ./stringtie/filter.iuxo.l200.ncd.pep6.fa -dir ~/database/pfam-A/ -o ./stringtie/pfam.out
##根據(jù)pfam結(jié)果過濾存在蛋白結(jié)構(gòu)域的transcripts
sed "/#/d" ./stringtie/pfam.out | sed '/^$/d'  | awk '$13 < 1e-5 {print $1}' | sed "s/_/\t/g" | awk '{print "\"" $1 "\""}' > ./stringtie/pfam.coding.txt
LC_ALL=C fgrep -v -f ./stringtie/pfam.coding.txt ./stringtie/filter.iuxo.l200.ncd.gtf > ./stringtie/final.lncRNA.gtf

Step3:轉(zhuǎn)錄本定量

將lncRNA與基因組注釋整合到腥,隨后用Stringtie進(jìn)行轉(zhuǎn)錄本水平FPKM定量

#進(jìn)行轉(zhuǎn)錄本水平定量(以sample1為例)
cat ./stringtie/final.lncRNA.gtf ~/genome/genome.gtf > count/final.all.gtf
##轉(zhuǎn)錄本的FPKM值在sample1目錄下的t_data.ctab文件中
stringtie -p 4 -b ./count/sample1 --rf -G count/final.all.gtf -e -o ./count/tmp.sample1.gtf -l sample1 ./hisat2/lnc.rna.sample1.bam

從中提取count值用于后續(xù)差異分析

#提取count值
##其中l(wèi)ncrna.sample.txt包含了所有樣本的信息朵逝,兩列,第一列為樣本名乡范,第二列為樣本的gtf名
prepDE.py -i ./count/lncrna.sample.txt -g ./count/all.gene.count.csv -t ./count/all.transcript.count.csv

Step4:lncRNA靶基因預(yù)測

分別預(yù)測lncRNA的cis和trans的靶基因

#lncRNA靶基因預(yù)測(只針對FPKM>1的lncRNA和mRNA)
##cis-lncRNA靶基因配名,一般根據(jù)lncRNA和mRNA的位置信息進(jìn)行判定,比如上下游100k
awk '{print $1 "\t" $2-100000 "\t" $3+100000 "\t" $4}' ~/genome/all.gene.bed | awk '$2<0 {print $1 "\t" 0 "\t" $3 "\t" $4} $2>=0 {print $0}' > ./target/all.gene.+-100k.bed
awk '$3=="transcript" {print $1 "\t" $4 "\t" $5 "\t" $10 }' ./stringtie/final.lncRNA.gtf | sed "s/\"http://g" | sed "s/\;//g" > ./stringtie/final.lncRNA.bed
bedtools intersect -wo -a ./stringtie/final.lncRNA.bed -b ./target/all.gene.+-100k.bed | cut -f 4,8 > ./target/lncrna.cis.target.txt

##trans-lncRNA靶基因
##利用LucTar預(yù)測lncRNA經(jīng)過trans作用的靶基因
#-d設(shè)置ndG(the normalized deltaG)閾值晋辆,小于該閾值則認(rèn)為存在互作渠脉,大于該閾值則認(rèn)為不存在互作。建議設(shè)為:-0.08(lowest);-0.10(low);-0.13(medium);-0.15(high);-0.20(highest)
#-s F/T瓶佳,設(shè)置是否輸出配對的序列(批量運(yùn)算時不建議輸出)
##保證fa文件的基因ID行只有基因ID芋膘,沒有空格后面的,否則會報錯“the format of file is error, Please check! The name and the sequence do not put in a row!”
gffread final.lncRNA.gtf -g ~/genome/genome.fa -w final.lncRNA.transcript.fa
perl LncTar.pl -p 1 -l final.lncRNA.transcript.fa -m mRNA.transcript.fa -d ndg -s F -o lncRNA.trans.mRNA.LucTar.txt

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末霸饲,一起剝皮案震驚了整個濱河市为朋,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌厚脉,老刑警劉巖习寸,帶你破解...
    沈念sama閱讀 218,607評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異傻工,居然都是意外死亡霞溪,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,239評論 3 395
  • 文/潘曉璐 我一進(jìn)店門精钮,熙熙樓的掌柜王于貴愁眉苦臉地迎上來威鹿,“玉大人剃斧,你說我怎么就攤上這事轨香。” “怎么了幼东?”我有些...
    開封第一講書人閱讀 164,960評論 0 355
  • 文/不壞的土叔 我叫張陵臂容,是天一觀的道長。 經(jīng)常有香客問我根蟹,道長脓杉,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,750評論 1 294
  • 正文 為了忘掉前任简逮,我火速辦了婚禮球散,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘散庶。我一直安慰自己蕉堰,他們只是感情好凌净,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,764評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著屋讶,像睡著了一般冰寻。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上皿渗,一...
    開封第一講書人閱讀 51,604評論 1 305
  • 那天斩芭,我揣著相機(jī)與錄音,去河邊找鬼乐疆。 笑死划乖,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的挤土。 我是一名探鬼主播迁筛,決...
    沈念sama閱讀 40,347評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼耕挨!你這毒婦竟也來了细卧?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,253評論 0 276
  • 序言:老撾萬榮一對情侶失蹤筒占,失蹤者是張志新(化名)和其女友劉穎贪庙,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體翰苫,經(jīng)...
    沈念sama閱讀 45,702評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡止邮,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,893評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了奏窑。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片导披。...
    茶點(diǎn)故事閱讀 40,015評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖埃唯,靈堂內(nèi)的尸體忽然破棺而出撩匕,到底是詐尸還是另有隱情,我是刑警寧澤墨叛,帶...
    沈念sama閱讀 35,734評論 5 346
  • 正文 年R本政府宣布止毕,位于F島的核電站,受9級特大地震影響漠趁,放射性物質(zhì)發(fā)生泄漏扁凛。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,352評論 3 330
  • 文/蒙蒙 一闯传、第九天 我趴在偏房一處隱蔽的房頂上張望谨朝。 院中可真熱鬧,春花似錦、人聲如沸字币。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,934評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽纬朝。三九已至收叶,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間共苛,已是汗流浹背判没。 一陣腳步聲響...
    開封第一講書人閱讀 33,052評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留隅茎,地道東北人澄峰。 一個月前我還...
    沈念sama閱讀 48,216評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像辟犀,于是被迫代替她去往敵國和親俏竞。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,969評論 2 355

推薦閱讀更多精彩內(nèi)容