## lncRNA分析完全指北

Step1：鏈特異性比對并組裝轉(zhuǎn)錄本

用HISAT2對每個樣本進(jìn)行鏈特異性比對衡未，隨后利用StringTie對每個樣本的轉(zhuǎn)錄本進(jìn)行單獨(dú)組裝

mkdir cleandata hisat2 stringtie count target
#利用HISAT2進(jìn)行鏈特異性比對，--rna-strandness RF
#以sample1為例
hisat2 --dta -x ~/genome/hisat2_index/genome.hisat2 -p 4 --rna-strandness RF -1 ./cleandata/lnc.rna.sample1_R1.fq.gz -2 ./cleandata/lnc.rna.sample1_R2.fq.gz -S ./hisat2/lnc.rna.sample1.sam
samtools view -@ 4 -bS -q 30 ./hisat2/lnc.rna.sample1.sam | samtools sort -@ 4 - -o ./hisat2/lnc.rna.sample1.bam
rm ./hisat2/lnc.rna.sample1.sam
samtools flagstat -@ 4 ./hisat2/lnc.rna.sample1.bam > ./hisat2/lnc.rna.sample1.stat.txt

#利用StringTie對每個樣本單獨(dú)組裝轉(zhuǎn)錄本
stringtie -p 4 --rf -G ~/genome/genome.gff3 -o ./stringtie/lnc.rna.sample1.gtf -l lnc.rna.sample1 ./hisat2/lnc.rna.sample1.bam

Step2：過濾lncRNA

將所有樣本組裝的轉(zhuǎn)錄本合并青责，隨后根據(jù)lncRNA的特征進(jìn)行過濾

#利用StringTie將所有樣本的轉(zhuǎn)錄本合并
##其中g(shù)tf.list.txt包含所有要合并的gtf文件，一行一個
ls ./stringtie/*gtf > gtf.list.txt
stringtie --merge -p 4 --rf -G ~/genome/genome.gff3 -o ./stringtie/all.merged.gtf -l lncrna gtf.list.txt

#利用gffcompare將組裝好的轉(zhuǎn)錄本與原始基因注釋文件進(jìn)行比較
gffcompare -r ~/genome/genome.gff3 -o ./stringtie/gffcmp ./stringtie/all.merged.gtf

#根據(jù)gffcompare的結(jié)果過濾轉(zhuǎn)錄本，根據(jù)lncRNA的特性管呵，只保留calss code為i,u,x,o并且長度大于200bp的轉(zhuǎn)錄本
#i: 完全包含在參考的內(nèi)含子內(nèi)
#u: 位于基因間區(qū)
#x: 與參考外顯子存在overlap但與參考轉(zhuǎn)錄本方向相反
#o: 與參考外顯子存在overlap且與參考轉(zhuǎn)錄本方向一致
awk '$3=="i" || $3=="u" || $3=="x" || $3=="o" && $10>200 {print "\"" $5 "\""}' ./stringtie/gffcmp.all.merged.gtf.tmap > ./stringtie/filter.iuxo.l200.transcript.id.txt
LC_ALL=C fgrep -f ./stringtie/filter.iuxo.l200.transcript.id.txt ./stringtie/gffcmp.annotated.gtf > ./stringtie/filter.iuxo.l200.gtf

#根據(jù)gtf文件提取轉(zhuǎn)錄本的序列
gffread ./stringtie/filter.iuxo.l200.gtf -g ~/genome/genome.fa -w ./stringtie/filter.iuxo.l200.transcript.fa

#預(yù)測轉(zhuǎn)錄本的編碼能力
##CPC2袭蝗，依賴python3
python ~/software/CPC2/CPC2_standalone-1.0.1/bin/CPC2.py -i ./stringtie/filter.iuxo.l200.transcript.fa -o ./stringtie/CPC2.out --ORF

#CNCI唤殴，依賴python2.7
#-m pl指定模型為植物
python2.7 ~/software/CNCI/CNCI-master/CNCI.py -f ./stringtie/filter.iuxo.l200.transcript.fa -o ./stringtie/CNCI.out -p 4 -m pl

##LGC，依賴python2.7
python2.7 ~/software/LGC/LGC-master/scr/lgc-1.0.0.py ./stringtie/filter.iuxo.l200.transcript.fa ./stringtie/LGC.out.txt

#過濾掉具有蛋白編碼能力的轉(zhuǎn)錄本
awk '$9=="noncoding"{print "\"" $1 "\""}' ./stringtie/CPC2.out.txt > ./stringtie/tmp.CPC2.txt
awk '$5=="Non-coding"{print "\"" $1 "\""}' ./stringtie/LGC.out.txt > ./stringtie/tmp.LGC.txt
awk '$3=="noncoding"{print "\"" $1 "\""}' ./stringtie/CNCI.out/CNCI.index > ./stringtie/tmp.CNCI.txt
cat ./stringtie/tmp.CPC2.txt ./stringtie/tmp.LGC.txt | sort | uniq -d > ./stringtie/tmp1
cat ./stringtie/tmp.CPC2.txt ./stringtie/tmp.CNCI.txt | sort | uniq -d > ./stringtie/tmp2
cat ./stringtie/tmp1 ./stringtie/tmp2 | sort | uniq -d > ./stringtie/filter.iuxo.l200.ncd.transcript.txt
LC_ALL=C fgrep -f ./stringtie/filter.iuxo.l200.ncd.transcript.txt ./stringtie/filter.iuxo.l200.gtf > ./stringtie/filter.iuxo.l200.ncd.gtf
gffread ./stringtie/filter.iuxo.l200.ncd.gtf -g ~/genome/genome.fa -w ./stringtie/filter.iuxo.l200.ncd.transcript.fa

#利用pfam數(shù)據(jù)庫進(jìn)行過濾
##用Transeq將轉(zhuǎn)錄本翻譯為6種可能的蛋白序列
transeq ./stringtie/filter.iuxo.l200.ncd.transcript.fa ./stringtie/filter.iuxo.l200.ncd.pep6.fa -frame=6
##設(shè)置E-value < 1e-5為閾值
pfam_scan.pl -cpu 4 -fasta ./stringtie/filter.iuxo.l200.ncd.pep6.fa -dir ~/database/pfam-A/ -o ./stringtie/pfam.out
##根據(jù)pfam結(jié)果過濾存在蛋白結(jié)構(gòu)域的transcripts
sed "/#/d" ./stringtie/pfam.out | sed '/^$/d'  | awk '$13 < 1e-5 {print $1}' | sed "s/_/\t/g" | awk '{print "\"" $1 "\""}' > ./stringtie/pfam.coding.txt
LC_ALL=C fgrep -v -f ./stringtie/pfam.coding.txt ./stringtie/filter.iuxo.l200.ncd.gtf > ./stringtie/final.lncRNA.gtf

Step3：轉(zhuǎn)錄本定量

將lncRNA與基因組注釋整合到腥，隨后用Stringtie進(jìn)行轉(zhuǎn)錄本水平FPKM定量

#進(jìn)行轉(zhuǎn)錄本水平定量(以sample1為例)
cat ./stringtie/final.lncRNA.gtf ~/genome/genome.gtf > count/final.all.gtf
##轉(zhuǎn)錄本的FPKM值在sample1目錄下的t_data.ctab文件中
stringtie -p 4 -b ./count/sample1 --rf -G count/final.all.gtf -e -o ./count/tmp.sample1.gtf -l sample1 ./hisat2/lnc.rna.sample1.bam

從中提取count值用于后續(xù)差異分析

#提取count值
##其中l(wèi)ncrna.sample.txt包含了所有樣本的信息朵逝，兩列，第一列為樣本名乡范，第二列為樣本的gtf名
prepDE.py -i ./count/lncrna.sample.txt -g ./count/all.gene.count.csv -t ./count/all.transcript.count.csv

Step4：lncRNA靶基因預(yù)測

分別預(yù)測lncRNA的cis和trans的靶基因

#lncRNA靶基因預(yù)測（只針對FPKM>1的lncRNA和mRNA）
##cis-lncRNA靶基因配名，一般根據(jù)lncRNA和mRNA的位置信息進(jìn)行判定，比如上下游100k
awk '{print $1 "\t" $2-100000 "\t" $3+100000 "\t" $4}' ~/genome/all.gene.bed | awk '$2<0 {print $1 "\t" 0 "\t" $3 "\t" $4} $2>=0 {print $0}' > ./target/all.gene.+-100k.bed
awk '$3=="transcript" {print $1 "\t" $4 "\t" $5 "\t" $10 }' ./stringtie/final.lncRNA.gtf | sed "s/\"http://g" | sed "s/\;//g" > ./stringtie/final.lncRNA.bed
bedtools intersect -wo -a ./stringtie/final.lncRNA.bed -b ./target/all.gene.+-100k.bed | cut -f 4,8 > ./target/lncrna.cis.target.txt

##trans-lncRNA靶基因
##利用LucTar預(yù)測lncRNA經(jīng)過trans作用的靶基因
#-d設(shè)置ndG（the normalized deltaG）閾值晋辆，小于該閾值則認(rèn)為存在互作渠脉，大于該閾值則認(rèn)為不存在互作。建議設(shè)為：-0.08(lowest);-0.10(low);-0.13(medium);-0.15(high);-0.20(highest)
#-s F/T瓶佳，設(shè)置是否輸出配對的序列（批量運(yùn)算時不建議輸出）
##保證fa文件的基因ID行只有基因ID芋膘，沒有空格后面的，否則會報錯“the format of file is error, Please check! The name and the sequence do not put in a row!”
gffread final.lncRNA.gtf -g ~/genome/genome.fa -w final.lncRNA.transcript.fa
perl LncTar.pl -p 1 -l final.lncRNA.transcript.fa -m mRNA.transcript.fa -d ndg -s F -o lncRNA.trans.mRNA.LucTar.txt

最后編輯于：2024.01.03 14:10:20

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末霸饲，一起剝皮案震驚了整個濱河市为朋，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌厚脉，老刑警劉巖习寸，帶你破解...
沈念sama閱讀 218,607評論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異傻工，居然都是意外死亡霞溪，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,239評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門精钮，熙熙樓的掌柜王于貴愁眉苦臉地迎上來威鹿，“玉大人剃斧，你說我怎么就攤上這事轨香。” “怎么了幼东？”我有些...
開封第一講書人閱讀 164,960評論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵臂容，是天一觀的道長。經(jīng)常有香客問我根蟹，道長脓杉，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,750評論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任简逮，我火速辦了婚禮球散，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘散庶。我一直安慰自己蕉堰，他們只是感情好凌净，可當(dāng)我...
茶點(diǎn)故事閱讀 67,764評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著屋讶，像睡著了一般冰寻。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上皿渗，一...
開封第一講書人閱讀 51,604評論 1贊 305
城市分裂傳說
那天斩芭，我揣著相機(jī)與錄音，去河邊找鬼乐疆。笑死划乖，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的挤土。我是一名探鬼主播迁筛，決...
沈念sama閱讀 40,347評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼耕挨！你這毒婦竟也來了细卧？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,253評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤筒占，失蹤者是張志新（化名）和其女友劉穎贪庙，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體翰苫，經(jīng)...
沈念sama閱讀 45,702評論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡止邮，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,893評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了奏窑。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片导披。...
茶點(diǎn)故事閱讀 40,015評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖埃唯，靈堂內(nèi)的尸體忽然破棺而出撩匕，到底是詐尸還是另有隱情，我是刑警寧澤墨叛，帶...
沈念sama閱讀 35,734評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布止毕，位于F島的核電站，受9級特大地震影響漠趁，放射性物質(zhì)發(fā)生泄漏扁凛。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,352評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一闯传、第九天我趴在偏房一處隱蔽的房頂上張望谨朝。院中可真熱鬧，春花似錦、人聲如沸字币。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,934評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽纬朝。三九已至收叶，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間共苛，已是汗流浹背判没。一陣腳步聲響...
開封第一講書人閱讀 33,052評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留隅茎，地道東北人澄峰。一個月前我還...
沈念sama閱讀 48,216評論 3贊 371
代替公主和親
正文我出身青樓，卻偏偏與公主長得像辟犀，于是被迫代替她去往敵國和親俏竞。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,969評論 2贊 355

## lncRNA分析完全指北

Step1：鏈特異性比對并組裝轉(zhuǎn)錄本

Step2：過濾lncRNA

Step3：轉(zhuǎn)錄本定量

Step4：lncRNA靶基因預(yù)測

推薦閱讀更多精彩內(nèi)容