TransCirc:可翻譯circRNA數(shù)據(jù)庫

欄目:最新研究動(dòng)態(tài) 發(fā)布時(shí)間:2021-05-19
最近的研究表明,circRNA可以通過充當(dāng)非編碼RNA或編碼RNA發(fā)揮多種生物學(xué)作用。體外合成的circRNA可以不依賴于帽的方式進(jìn)行翻譯。


環(huán)狀RNAcircRNA)是動(dòng)植物中一類豐富且保守的RNA。最近的研究表明,circRNA可以通過充當(dāng)非編碼RNA或編碼RNA發(fā)揮多種生物學(xué)作用。體外合成的circRNA可以不依賴于帽的方式進(jìn)行翻譯。但鑒定circRNA編碼的蛋白質(zhì)是困難的,主要是因?yàn)?/span>circRNA序列及其宿主基因的同源線性mRNA具有較大的重疊。

近期Nucleic Acids Research雜志在線發(fā)表了題名為:TransCirc: an interactive database for translatable circular RNAs based on multi-omics evidence的文章,該文章主要講述了circRNA翻譯預(yù)測和分析的數(shù)據(jù)庫——TransCirc。TransCirc數(shù)據(jù)庫整合了各種與翻譯相關(guān)的證據(jù),檢索的結(jié)果能直觀的呈現(xiàn)翻譯產(chǎn)物的相關(guān)證據(jù)信息。數(shù)據(jù)共分析了328080種已知人類circRNA的翻譯潛能,有蛋白質(zhì)譜證據(jù)(MS)的circRNA168個(gè),核糖體印跡或多聚核糖體分析(RP/PP)的證據(jù)4284個(gè)circRNA,潛在翻譯產(chǎn)物序列分析(SeqComp)的301100個(gè)circRNA。有IRES預(yù)測結(jié)果的314138個(gè)circRNA,有m6A修飾位點(diǎn)信息的39397個(gè)circRNA,有翻譯起始位點(diǎn)信息(TIS)的9394個(gè)circRNA,有ORF信息的305016個(gè)circRNA。


image.png

1. 核糖體印跡與多聚核糖體分析證據(jù)

mRNA的翻譯是由核糖體進(jìn)行的,它可以在主動(dòng)翻譯的mRNA中形成多聚核糖體(Polysome)。因此,與核糖體/多核糖體的結(jié)合可以作為可翻譯circRNA潛力的強(qiáng)有力的預(yù)測證據(jù)。數(shù)據(jù)庫整合了已發(fā)表的核糖體印跡(Ribosome Profiling)分析數(shù)據(jù)和多聚核糖體分析(Polysome Profiling)數(shù)據(jù),挖掘分析circRNA與核糖體的關(guān)聯(lián)。

2. 翻譯啟動(dòng)站點(diǎn)(TIS

GTI-seq已實(shí)現(xiàn)了接近單核苷酸分辨率的翻譯起始密碼子的全景圖,揭示了整個(gè)人類轉(zhuǎn)錄組中數(shù)千個(gè)TIS密碼子的明確集合。數(shù)據(jù)庫基于GTI-seqTISdb數(shù)據(jù)用作支持circRNAs翻譯的間接證據(jù),這也與潛在的ORF相關(guān)。

3. IRES序列

由于circRNA是共價(jià)閉環(huán)分子,沒有游離末端,因此circRNA的翻譯必須使用一種非經(jīng)典的啟動(dòng)機(jī)制,即不依賴5-帽子的翻譯啟動(dòng)。這種起始途徑往往通過IRES(內(nèi)部核糖體進(jìn)入位點(diǎn))驅(qū)動(dòng),IRES是具有特殊二級結(jié)構(gòu)的短RNA片段。在病毒中發(fā)現(xiàn)并證明了大量的IRES元件,在一些特殊情況下,哺乳動(dòng)物內(nèi)源性的IRES元件也可以起始翻譯。作者團(tuán)隊(duì)也曾針對circRNAIRES元件進(jìn)行了系統(tǒng)性的篩選驗(yàn)證。數(shù)據(jù)庫也使用了所有可用的IRES信息作為支持circRNA翻譯的證據(jù)。

4. m6A位點(diǎn)

N-6-甲基腺苷(m6A)是最常見的RNA修飾,存在于許多類型的編碼和非編碼RNA中。作者團(tuán)隊(duì)曾報(bào)道circRNA具有廣泛的m6A修飾,并可以通過募集YTHDF3及相互作用的翻譯起始因子(例如eIF4G2)起始circRNA翻譯。數(shù)據(jù)庫采用了REPIC數(shù)據(jù)庫已發(fā)布的m6A修飾數(shù)據(jù)(由三種不同的工具識別),并將其比對到circRNA序列中。circRNA中已經(jīng)過實(shí)驗(yàn)驗(yàn)證的m6A位點(diǎn)也整合到該數(shù)據(jù)庫中。

5. ORF長度

潛在的開放閱讀框(ORF)的長度是編碼RNA與非編碼RNA的共同預(yù)測指標(biāo)。通常在非編碼RNA中找不到長的ORF,數(shù)據(jù)庫將ORF長度> 20aa作為circRNA編碼肽的最低要求。值得注意的是,ORF長度是一個(gè)相對較弱的預(yù)測因子,因?yàn)樽罱l(fā)現(xiàn)許多小肽是由人類轉(zhuǎn)錄組中的“非編碼” RNA編碼的,而具有長ORFcircRNA更有可能成為編碼RNA。

6. 翻譯產(chǎn)物的序列組成

所有天然蛋白質(zhì)的氨基酸(aa)序列僅占據(jù)可能序列空間的一小部分,主要是因?yàn)橹挥幸恍〔糠中蛄锌梢孕纬煞€(wěn)定的蛋白質(zhì)。因此,具有“非天然”序列的蛋白質(zhì)傾向于快速降解,并且與所有天然蛋白質(zhì)的序列相似性可以作為強(qiáng)有力的預(yù)測指標(biāo),以鑒定隨機(jī)氨基酸序列中的真實(shí)蛋白質(zhì)。使用機(jī)器學(xué)習(xí)方法來預(yù)測天然蛋白給定序列的可能性,并應(yīng)用該預(yù)測來對circRNA編碼的給定ORF可以用作功能蛋白模板的可能性進(jìn)行評分。

7. 質(zhì)譜/蛋白質(zhì)組學(xué)證據(jù)

質(zhì)譜法是準(zhǔn)確鑒定和表征蛋白質(zhì)的重要方法。已經(jīng)進(jìn)行了數(shù)個(gè)大規(guī)模質(zhì)譜實(shí)驗(yàn)來研究人類蛋白質(zhì)組,但是即使考慮蛋白質(zhì)的翻譯后修飾,也只能可靠地將約50%的MS指紋圖譜與人類mRNA編碼的已知肽匹配成功。這表明,非典型mRNA編碼了很大一部分“隱藏蛋白質(zhì)組”,其中也包括了可能來自circRNA的編碼產(chǎn)物。作者通過設(shè)計(jì)新的分析流程,從蛋白質(zhì)譜數(shù)據(jù)中挖掘分析了可能由circRNA編碼的多肽,并展示了所有原始質(zhì)譜圖,這些質(zhì)譜圖可支持circRNA編碼的跨接口位點(diǎn)的肽段。circRNA特異性ORF


image.png