RNA序列不仅携带遗传信息,还能够折叠成复杂的RNA结构以调节多种生物功能。在所有的RNA结构中,RNA G四联体(RNA G-quadruplex, rG4)是一种重要的RNA三级结构。它通常富含鸟嘌呤(G-rich)并同时包含Hoogsteen碱基和Watson-Crick碱基。目前,rG4被证明在转录后调控过程发挥重要作用,包括抑制翻译过程,减弱RNA降解,影响miRNA的结合以及RNA的可变剪切等【1】。
rG4具有明显的序列特征,如典型的rG4为四组三联鸟嘌呤与三个长度不超过7nt的环(G3N1-7)。此外,还有一些非经典的rG4结构,如二联鸟嘌呤(G2),鸟嘌呤缺失(G3V)或凸环(G3B)。早期的研究直接通过RNA序列的模式匹配来鉴定rG4,但很快就发现即使符合rG4的序列特征, 其折叠状态依然具有不确定性。目前,有几种低通量的实验策略被用来确定rG4的折叠状态,如配体结合实验、逆转录酶(RT)足迹实验和生物物理实验。然而,由于生物体内潜在的rG4数量巨大,这些低通量的方法严重限制了对转录组中折叠的rG4的发掘。随着下一代测序技术的出现,高通量的全转录组rG4检测方法在2016年代首次出现,并持续发展至今。目前转录组探测rG4的技术包括rG4-seq、配体结合法和化学探测法。这些研究已经在不同的转录组中发现了大量的rG4,并将rG4与关键的生物过程联系起来【2,3】。
基于最新的转录组rG4探测技术,2022年10月16日,英国约翰英纳斯研究所(John Innes Centre, JIC)丁一倞研究组在Nucleic Acids Research上发表了文章 G4Atlas: a comprehensive transcriptome-wide G-quadruplex database,收集了高通量鉴定rG4的全部实验数据并进行统一的标准化和可视化,建立了首个多物种转录组G四联体结构数据库,G4Atlas (https://www.g4atlas.org/)【4】。
G4Atlas数据库的包含六个主要部分(图1)。"主页"和 "搜索"页面通过内置的搜索引擎将键入的字符快速定位到目标信息,包括不同物种的基因名称、基因ID和G4Atlas数据库特有的rG4 ID等。在 "浏览 "页面展示了物种维度的rG4信息。此外,数据库中嵌入的数据资源可以从 "下载 "页面下载,相应的帮助信息可以从“帮助”页面获得。数据提交、反馈建议和问题可以通过'联系'页面提交。当前版本的G4Atlas数据库包含10个物种,83个不同的实验处理和238个样品。它包括当前所有的全转录组rG4检测的数据集,包含rG4-seq、配体结合法如G4RP-seq和化学探针法如Keth-seq、DMS探针法、NAI探针法和SHALiPE-seq。在充分参考各个研究的数据处理策略后,不同的实验数据集被重新整理、处理、分类、编号、标准化并可视化,最后存储到数据库中。
图1. G4Atlas数据库的网络界面。该数据库由六个主要页面组成,包括 "主页"、"搜索"、"浏览"、"下载"、"联系 "和 "帮助 "页面。
G4Atlas数据库包含三个维度的rG4信息,包括物种、基因和rG4区域(图2)。“物种”维度提供了物种rG4s的统计信息以及该物种中所鉴定出的rG4s信息。“基因”维度展示了该基因相关的rG4信息,包括预测的rG4信息与已鉴定的rG4信息。“rG4维度”关注的是rG4区域及其上下游50nt区域的详细信息,包括rG4s的序列,rG4与侧翼序列的RNA二级结构信息以及该区域不同实验处理的原始数据以及Meta分析数据。以前的研究提出,RNA二级结构会与rG4同时折叠,从而形成潜在的竞争关系。在G4Atlas数据库的rG4维度数据中,研究者提供了每一个rG4在“折叠”与“非折叠”状态下的RNA二级结构及配对概率。网页中可以通过“开关”快速的转换并提供可交互的可视化RNA结构构象。
图2. G4Atlas数据库从三个维度展示rG4信息。
G4Atlas数据库以前后端分离的模式进行部署。数据库的前端采用Vue3框架实现的,而后端采用用Python FLASK框架与PostgreSQL数据库实现的。该数据库是用户友好的,可以从所有平台直接访问,包括手机、平板电脑和PC,无需注册。建议使用个人电脑访问以获得最佳浏览体验。
图3. 转录组rG4数据分析流程。(A) 数据处理工作流程。数据库包含三种主要类型的方法,rG4-seq、化学探针和配体结合方法。通过右侧标准化的八步流程,从这三种数据类型中获得相应的RG4相关信息。(B) G4Atlas数据库中rG4的编号规则。(C) rG4的分类。
综上所述,随着最近对rG4s功能重要性的发现,一个具有不同物种的实验验证的rG4数据库是非常必要的。G4Atlas是一个全面的、面向全世界的、开放的、用户友好的rG4数据库,具有丰富的可交互与下载的资源。研究人员可以快速方便地锁定他们感兴趣的物种和或基因,获取详细的rG4信息和资源,也为进一步采用数据驱动的深度学习算法来研究rG4结构特征奠定了基础。
据悉,英国约翰英纳斯研究所的于昊澎博士和戚一曼博士为文章的共同第一作者;丁一倞研究员和于昊澎博士为文章的共同通讯作者;杨毕波博士和中国科学院分子植物科学卓越创新中心杨小飞研究员也对此研究做出了重要贡献。
1. Lyu,K., Chow,E.Y.-C., Mou,X., Chan,T.-F. and Kwok,C.K. (2021) RNA G-quadruplexes (rG4s): genomics and biological functions. Nucleic Acids Research, 49, 5426–5450.
2. Kwok,C.K., Marsico,G., Sahakyan,A.B., Chambers,V.S. and Balasubramanian,S. (2016) rG4-seq reveals widespread formation of G-quadruplex structures in the human transcriptome. Nat Methods, 13, 841–844.
3. Yang,X., Cheema,J., Zhang,Y., Deng,H., Duncan,S., Umar,M.I., Zhao,J., Liu,Q., Cao,X., Kwok,C.K., et al. (2020) RNA G-quadruplex structures exist and function in vivo in plants. Genome Biol, 21, 226.
4. Yu,H., Qi,Y., Yang,B., Yang,X. and Ding,Y. (2022) G4Atlas: a comprehensive transcriptome-wide G-quadruplex database. Nucleic Acids Research, 10.1093/nar/gkac896.
https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkac896/6761720