钱江晚报·小时新闻记者 郑琳
发布人简介:周文超,清华大学计算机系本科,宾夕法尼亚大学计算机与信息科学博士。毕业后于美国乔治城大学计算机系任教,后升任终身副教授。现任职于阿里云数据库事业部以及达摩院数据库与存储实验室。至今在一流国际学术会议与期刊上发表论文50余篇。主要研究方向是计算机系统的设计和实现,涵盖数据库、分布式系统、计算机网络和系统安全等方向。曾获多项重要奖项,包括美国基金委NSF CAREER Award(杰出教授奖),ACM SIGMOD 2013最佳博士论文奖,EDBT 2020最佳论文奖,ACM SIGCOMM最佳系统演示奖等。
成果简介:云原生数据库通过资源解耦和资源池化等技术,具备了高弹性、高可用性、可扩展性等特点,支撑了不同业务领域的应用对数据管理高性能、高并发和按需使用的需求。近期阿里云数据库团队在云原生分布式架构以及大规模混合负载执行等方向完成关键突破:实现了计算、内存、存储三层资源解耦和独立升降配,并支持库仓一体化的数据管理,有效推动了云原生数据库的发展。同时,团队协同达摩院数据库与存储实验室在安全可信、智能化运维、多模态数据处理等领域积极布局,为来自不同客户和不同场景的差异化数据打造一站式全链路的在线数据管理与服务平台。
数据库这个概念,萌发于上个世纪70年代,从关系型的数据库开始,像IBM这样的厂商,最开始进行了商业化的尝试。后来人们不再局限于利用结构化的数据作为一个模型进行在线的处理,会更多的对数据的内在价值进行数据的计算和分析,逐渐演变出了以分析型数据库为代表的一系列工作,主要目的是对海量的数据进行高效的计算和分析。
再往后由于异构数据类型开始逐渐成为数据的主要形态,像网络上的一些文章、网站的一些信息,包括更近一些像物联网、车联网等等不同的应用场景中,数据不再是一个非常清晰的定义和结构的形式,更多的是一个非结构化异构的数据类型。
来到最近的十年,云原生成为数据库最核心发展的方向,云原生的本质就是我们希望将数据库,或者说计算机中最核心的计算和存储资源进行高效池化,对它进行利用的提升。我们希望在数据的生产、处理、存储和消费这样一个整个生命周期中,尽量减少数据的移动,减少数据的浪费,提升整个数据的利用率。
围绕数据云原生这个方向,阿里云数据库事业部在李飞飞博士的带领下,打造了一站式的数据管理和服务的平台,针对不同的行业、不同的场景,还有不同的部署形态,像公有云、混合云再到专有云,在全场景下提供了数据的一站式的全生命周期的管理。打造了从数据生产到集成、到适时的处理和存储,再到数据的发现和分析,全站的数据的管理和服务的平台。
我们希望云的资源能够像自来水一样,我们需要使用的时候,它无处不在,取之不尽、用之不竭,并不需要去关心云资源在哪里、有多少、如何管理。
云原生按需取用的特性也是非常适合业务在不同发展的时候的不同需求。
比如说,在双11的时候,从2019年到2020年间订单的峰值不断增长,到了2020年峰值达到60万每秒。尤其在0点的时候,突然之间有一个145倍的明显的增长,这对数据库是非常大的一个挑战。对于自建的数据库,其实很难去确定到底建多大的规模。如果建的规模太大,平时是对资源的浪费;而如果建的小了的话,又没有办法满足在峰值时候的需求。
而云原生数据库能够非常好地满足这样的条件,让用户真正能够做到按需取用。
而在云原生数据库的背后,核心的一个技术是对资源的分层和解耦。
一个传统的数据库引擎的架构,一般是分上面的计算引擎和存储引擎。比如说,我们要测量杭州的天气气温,每天读到气温存到下面的存储引擎,而用户可以根据不同的需求来写不同的查询,利用上面的基层引擎来适时的读取下面存储引擎的数据,来完成整个查询操作,比如我可以去计算杭州一年的平均气温。
而在云原生的数据库当中,我们将原本一体运行的数据库进行拆解,将计算、存储资源完全解耦,使用分布式的云存储来替代本地存储,将计算层做成无状态,将承载每层服务的资源进行池化,能够去支持这些不同的资源池独立的适时传输。
在过去的一年里,阿里云数据库将云原生往前再进了一步,实现了三层解耦。除了计算层和存储层,还将内存进行了一个池化,通过RDMA技术,将多个节点的内存组成共享的存储池,保证了内存资源的弹性和按需分配,进一步提升了内层的使用率。
同时在一写多读的基础上,也提供了多节点、多写的能力。当不同的用户使用同一个数据库的时候,他们可以同时在不同的地方进行读、写操作。
除了去推进云原生数据库所必须的资源池化、解耦能力,阿里云数据团队联合达摩院也在构建一站式的服务平台做出了一些非常重大的突破。比如现在大型数据库非常关心它的安全能力,也非常关心它的智能化的能力,也关心它能否去支持多模的数据。
在建设云原生数据的过程中,阿里云数据库专注于利用云原生分布式架构,在离在线一体化数据处理等核心技术的研发,同时联合达摩院积极布局像安全可信、智能化、多模态数据库处理等前沿领域,建设了涵盖了公有云、混合云到私有云等不同的部署场景,以及从数据的生产到处理到分析和开发的全链路数据平台,我们也希望能在核心技术所突破的红利带给数据库的用户,让用户真正去体验稳定、高效、安全、智能的一站式数据管理和服务。
本文为钱江晚报原创作品,未经许可,禁止转载、复制、摘编、改写及进行网络传播等一切作品版权使用行为,否则本报将循司法途径追究侵权人的法律责任。