1.非編碼RNA簡介
非編碼RNA是一類被認(rèn)為不具備編碼能力RNA程梦,目前已知的已經(jīng)有十多種,主要包括了:小RNA(sRNA) <40nt斜姥、小干擾RNA惑惶、miRNA(18-24nt)、長非編碼lncRNA(>200nt)凄吏、核糖體RNA远舅、核小RNA、核仁小RNA等等痕钢。隨著人們認(rèn)知的逐漸深入图柏,發(fā)現(xiàn)這些非編碼RNA在轉(zhuǎn)錄調(diào)控上發(fā)揮著重要的作用,并且其他部分同樣具有編碼蛋白的功能任连。
1.1 lncRNA結(jié)構(gòu)
在非編碼RNA中蚤吹,有一類長度超過200 nt的RNA分子,被稱為長鏈非編碼RNA随抠。非編碼RNA的來源包括基因間轉(zhuǎn)錄本裁着、增強子RNA、正義/反義轉(zhuǎn)錄本等拱她。研究發(fā)現(xiàn)一些lncRNA與mRNA非常相似二驰,同樣具有5'帽子結(jié)構(gòu)和polyA尾巴,區(qū)別是不具有開放讀碼框(open reading frame, ORF)秉沼。在lncRNA的形成過程中桶雀,lncRNA的轉(zhuǎn)錄由RNA聚合酶II/III所引導(dǎo),并且大多數(shù)lncRNA和mRNA一樣具有polyA尾巴氧猬。然而背犯,某些lncRNA有著不同的加工修飾途徑,其加工過程與tRNA形成過程較為相似盅抚,其初始轉(zhuǎn)錄本的3'端同樣會經(jīng)過RNase P的切割漠魏,形成一段類似于tRNA的mascRNA (MALAT1-associated small cytoplasmic RNA)。
1.2 lncRNA功能與特征
lncRNA最重要的生物學(xué)功能之一就是可以與特定蛋白相結(jié)合妄均,進(jìn)而發(fā)揮相應(yīng)的作用柱锹。有些支架蛋白或RBP在與作為骨架的lncRNA結(jié)合后哪自,促使大分子復(fù)合物的形成和激活,能夠進(jìn)一步激活下游通路或直接發(fā)揮作用禁熏。一部分lncRNA可通過與蛋白結(jié)合順式地作用于某些基因的轉(zhuǎn)錄起始位點壤巷,進(jìn)而調(diào)節(jié)基因轉(zhuǎn)錄。lncRNA也可以直接與DNA序列結(jié)合瞧毙,從而形成RNA-DNA三股螺旋復(fù)合物胧华,使得染色質(zhì)構(gòu)象處于開放狀態(tài),促進(jìn)基因的轉(zhuǎn)錄宙彪。其他lncRNA則具有輔助抑制因子的功能矩动,可與特定轉(zhuǎn)錄因子結(jié)合,阻礙其與DNA的結(jié)合释漆,而抑制RNA聚合酶的活性悲没。此外,lncRNA在染色質(zhì)結(jié)構(gòu)重建和三維結(jié)構(gòu)中也起著重要作用男图,可通過與染色質(zhì)修飾復(fù)合物或增強子元件結(jié)合示姿,促進(jìn)激活子活性。此外逊笆,反義lncRNA與相重疊的蛋白編碼基因可以相互抑制其基因的表達(dá)栈戳。近年來,有研究表明lncRNA也是一種重要的內(nèi)源性競爭抑制ncRNA,可作為miRNA的抑制因子览露,調(diào)節(jié)其miRNA對靶基因的負(fù)向調(diào)控作用荧琼。到目前為止,已經(jīng)有大量的lncRNA-miRNA-mRNA作用通路被揭示并研究了其在各種疾病或者發(fā)育進(jìn)程中的作用差牛。盡管大多數(shù)lncRNA不具有編碼能力,仍然有研究或預(yù)測分析發(fā)現(xiàn)有少部分lncRNA具有編碼能力堰乔,可以翻譯形成小分子量的蛋白質(zhì)偏化。
2. lncRNA鑒定
lncRNA預(yù)測軟件主要有2種方法,一種是直接預(yù)測其是否含有ORF元件或同源預(yù)測的方法;另一種是基于機器學(xué)習(xí)的方法,常見的方法包括:線性回歸算法镐侯、支持向量機(SVM)侦讨、或者隨機森林、深度學(xué)習(xí)等苟翻。目前主流的方法是采用機器學(xué)習(xí)算法鑒定lncRNA韵卤。
2.1 機器學(xué)習(xí)鑒定lncRNA
從是否有參考來看可以分為有參類和無參類。
2.1.1 有參考的鑒定策略
CPC是典型的有參類鑒定軟件崇猫,它基于SVM算法設(shè)計沈条,被廣泛使用在lncRNA的鑒定上,是目前公司的主要鑒定方法诅炉。然而CPC預(yù)測lncRNA并沒有想象中的這么美好蜡歹。首先屋厘,CPC 本身就不為 lncRNA 鑒定而設(shè)計的,它可以根據(jù) BLASTX 的開放閱讀框信息和比對結(jié)果預(yù)測lncRNA 月而,lncRNA不如mRNA 保守汗洒,高比例的 lncRNA 表現(xiàn)出許多類似于蛋白質(zhì)編碼序列的特征 。這會使流程錯誤地將lncRNA 歸類為mRNA父款。其次溢谤,CPC 需要一個高質(zhì)量且相當(dāng)全面的數(shù)據(jù)庫,但許多物種的注釋信息并不完整憨攒,甚至缺少有效的參考基因組溯香。其次,CPC 嚴(yán)重依賴 BLASTX 的輸出浓恶,但多序列比對工具不能保證最佳比對玫坛。最后,極其耗時的比對過程使得在海量數(shù)據(jù)上使用CPC耗時耗力包晰,需要高昂的運算條件和資源湿镀。
2.1.2 無參考的鑒定策略
基于CPC的尷尬使用范圍,和不算優(yōu)秀的可靠性伐憾,人們又開發(fā)了一系列無參類軟件勉痴,如CPC2, CNCI, lncRNA MFDL, lncScore, LncADeep, DeepLNC, LncRNAnet, COME, CPAT, lncRScan-SVM, longdist, PLEK, FEElnc, 和LncFinder等。
就LncFinder的作者對同類的深度學(xué)習(xí)軟件進(jìn)行對比树肃,結(jié)果如下圖所示:
LncFinder在各類數(shù)據(jù)集中基本都有最佳的表現(xiàn)蒸矛。對于人類和小鼠數(shù)據(jù)集,CPC 的特異性最高胸嘴,但敏感性最低雏掠,這種不平衡性使得它的綜合性能較差。CPC2 僅使用序列內(nèi)在特征預(yù)測 lncRNA劣像,且在人類數(shù)據(jù)集上的表現(xiàn)比CPC好很多乡话;但是,CPC2 在小鼠數(shù)據(jù)集上的性能略低于 CPC耳奕。對于其他無需對齊的識別工具绑青,CPAT 的準(zhǔn)確率高于 CPC、CNCI 和 PLEK屋群,但低于 LncFinder闸婴。即使排除了二級結(jié)構(gòu)衍生特征,LncFinder 在人類和小鼠數(shù)據(jù)集上也取得了最佳性能芍躏。加之LncFinder是一個R包可以在各個平臺上進(jìn)行使用邪乍,速度也相當(dāng)?shù)目欤皇橐环N新lncRNA-seq流程的鑒定工具。
下一期我們將帶來LncFinder包的生信實戰(zhàn)
最后:如果想了解更多和生信或者精品咖啡有關(guān)的內(nèi)容歡迎關(guān)注我的微信公眾號:生信咖啡溺欧,更多精彩等你發(fā)現(xiàn)喊熟!