数据仓库领域正发生着翻天覆地的变化,不管是市场维度,还是技术维度。


市场层面,过去的主流数据仓库榜单被国外的几家所霸占:Redshift、Snowflake、Actian……如今,可以说百花齐放百家争鸣,国产数据库也纷纷踏入了大众的视野。信通院2022年6月发布的数据显示,全球数据库产品供应商有363家,其中中国数据库供应商达116家。如今,越来越多的行业、越来越多的场景都能看到国产数据仓库的身影。


技术层面,进化不止,短短几年时间,集中式不再一家独大,分布式增长迅猛,在越来越多的关键行业、核心场景都证明了自己,登上了更广阔的舞台。截至当前,融合统一、云原生、实时分析三大趋势已经成为数据仓库一致的追求。



01



SelectDB脱颖而出,靠的是什么?


毫无疑问,数据仓库是当下最热的风口。在这样的大背景下,出现新的数据仓库创业公司本不令人好奇,但 SelectDB(北京飞轮数据科技有限公司)还是引起了笔者的注意,要知道SelectDB 成立还不到一年时间。


简单介绍下 SelectDB,基于Apache Doris 的商业化公司,2022年1月成立,4月完成天使轮和天使+轮融资,由 IDG 资本、红杉中国等顶级 VC 投资,融资金额超过3亿元。截至当前,SelectDB 可以说成绩斐然。


产品层面,在2022年10月 ClickHouse 发起的分析型数据库性能测试排行榜 ClickBench 中,SelectDB Cloud 性能表现超越一众国内外产品,多项指标排行前列,并在业界最为通用的 c6a.4xlarge, 500gb gp2 机型下排行全球第一。


客户层面,SelectDB 也已经为很多知名客户提供了产品和服务。在互联网、物流、金融、汽车、交通、零售、制造、政府等领域和行业,帮助用户落地数仓平台,解决业务分析、运营管理、用户洞察、智能决策等诸多方面的需求。例如趣头条、海程邦达、航旅纵横、安踏、BOSS直聘、360数科等诸多知名企业都已经开启了 SelectDB 云数仓应用之旅。


生态层面,SelectDB 已经与阿里云、腾讯云、华为云、AWS等世界顶级云服务商达成全面战略合作关系。并与思迈特、数澜科技、袋鼠云、观远数据、永洪科技、新致软件等数据中台和数据BI领域的生态伙伴联手开发应对现代数据分析需求的联合解决方案。


产品、客户、生态齐头并进,很难想象这是一个成立还不到一年的创业公司所为,然而SelectDB做到了,SelectDB 成功抓住了投资机构、客户、生态链企业等众多的眼球。试问这是如何做到的?了解创业历程的朋友其实都知道,创业初期拼的就是两个关键点:团队和方向。


SelectDB公司创始团队由原百度智能云初创人员和 Apache Doris 项目核心成员组成,在云计算/大数据/人工智能方面有丰富的经验。公司员工均来自于百度、腾讯、奇安信、阿里、字节、AWS、小米、快手、蚂蚁等国内外一流互联网和云计算企业。


至于方向,SelectDB 懂得顺势而为。伴随数字经济的不断深化,当前社会已全面进入现代数据栈时代,典型特征是以云数仓为中心,且要求平台处理数据具备实时性、统一性和云原生性。SelectDB在产品研发上很好的契合了这些趋势。


资深的技术团队+顺势而为,由此也就不难理解为什么能发展的如此迅速。说到底,团队、技术都是经过摸爬滚打的,有底气、有实力。



02



SelectDB Cloud行不行,让数据来说话


当前企业用户最重视的数据库特性有哪些?性能、成本、操作易用性、稳定性和安全性……缺一不可。道理很简单,数字经济时代,企业纷纷转型数字化,可靠性、稳定性对企业的正常运行十分重要,易用能够减少人力的投入,融合统一能够一套系统支持多种业务负载避免重复建设,至于成本方面,云原生的架构给予了数据仓库得天独厚的优势。


SelectDB Cloud 表现怎么样?一一来看。


极致性价比。性价比是有性能和成本两部分组成的,相辅相成。


性能方面,SelectDB Cloud 除了在分析型数据库性能测试排行榜 ClickBench 中登顶外,还有很多直观的对比场景。比如,


• 宽表聚合场景:

在SelectDB Cloud上选择3台medium 套餐(单节点 16 core vcpu,64G内存),同时选择各种主流的云数仓和开源数仓,在相同资源配置的套餐上进行测试。数据显示 SelectDB Cloud 在宽表的性能遥遥领先,大概是性能最好友商的3.4倍(clickhouse),是性能最差友商的92倍(presto),是业界标杆产品snowflake的6倍。


图片


• 多表关联场景:

在同样3台medium集群下的tpch sf100测试中,SelectDB Cloud的性能是友商的1.5倍(redshift)~ 49倍(ClickHouse),是业界主流友商Snowflake的2.5倍。


图片


关于性能,这里举几个实际案例:SelectDB帮助云积分,将实时圈人业务从3-5分钟降低到10秒;帮助橙联股份,将业务报表计算从2小时降低到2分多钟;帮助小米,将A/B实验场景性能提升2倍,用户行为分析场景性能提升4-6倍;帮助360数科,将即席查询平均耗时从5分钟缩短至5秒内;帮助同程数科,将报表查询的响应速度从之前的1-2分钟提升至秒级甚至毫秒级。


图片


至于成本,基于云原生的存储分离架构,SelectDB Cloud 能使得成本低至自有部署成本的 1/2~1/5,同时性能依然可以达到1.5倍以上的提升效果。这一方面得益于 SelectDB Cloud 分层分级存储引擎带来的综合成本降低,另一方面则是由于存算分离,使得计算节点可随需而动。


SelectDB Cloud 究竟是如何做到的?这里重点讲几项关键技术:


一、存储引擎。SelectDB Cloud采用列式存储引擎,数据按照列存储,在查询时可以减少无用数据的扫描,并且通过多种编码方式实现了超高的数据压缩比,同时丰富的索引结构也可以进一步减少数据扫描量,从而提升数据扫描效率。


二、查询引擎。SelectDB Cloud采用MPP查询引擎,能够充分利用多节点并行和节点内多核并行,支持多张大表的分布式shuffle join;支持数据的Colocate join和bucket shuffle join优化,减少数据传输,提升join性能;同时还支持类似runtime filter等动态执行技术,结合运行状态实现动态调整执行,达到最优的执行效率。


另外,SelectDB Cloud还增加了向量化执行引擎,能够大幅减少虚函数调用,提高cache命中率,高效利用了simd 指令,从而使算子的性能提升数十倍。


在此基础上,SelectDB Cloud采用RBO和CBO结合的智能优化策略。RBO完成表达式优化,常量折叠,公共表达式提取,列裁剪,谓词下推等。CBO采用cascades框架,通过丰富的统计信息和代价模型,完成join reorder、CTE、runtime filter等优化。


存储引擎和查询引擎的优异表现奠定了SelectDB Cloud的性能基石。除此之外,在成本优化方面,SelectDB Cloud也引用了很多创新性的技术,比如SelectDB Cloud实现了本地磁盘缓存和对象存储的分层分级存储引擎,不同层级的存储采用不同的系统和介质,再比如,SelectDB Cloud采用存算分离的架构,存储共享一份,不需要冗余的存储,计算资源随需弹性扩缩容,这些都带来了综合成本的大幅下降。


融合统一。为什么新时代的数据仓库要强调融合统一?因为大数据时代,数据种类太多、数据量太大,再以传统烟囱式的建设方式来治理数据不可行。


众所周知,传统数据仓库,一套业务配一个数据库和一套基础设施,分而治之,弊端很明显,烟囱多、业务复杂、运维要求高、成本高、业务之间不能相通;后为适应时代需求逐步发展出了数据湖的概念,能够支持结构化和非结构化数据,能够支撑多种业务负载。


数据湖的优点显而易见,以至于到现在还有不少声音在争论,究竟是选数据湖还是选数据仓。实际上,传统的湖仓并存方案有很多显而易见的缺点,例如系统的复杂性和数据的冗余性等等。


对比之下,SelectDB Cloud 就是现代数据栈时代下,云催生出的数仓的典型代表。它融合统一的特性能够解决传统湖仓并存方案的很多缺点,从以下方面看:




1、混合负载。SelectDB Cloud 一套系统可支持多种负载,包含实时报表分析、adhoc 分析、批量数据处理,湖仓加速联邦查询;

2、多样化的数据支持。SelectDB Cloud不但支持结构化数据分分析,也原生高效支持半结构化数据的存储和分析;

3、湖仓一体。SelectDB Cloud 支持对已经建设的离线数仓和数据湖进行联邦查询,实现高性能的同时,不需要迁移历史数据。包括支持便捷的元数据打通和支持多种外表的联邦查询。

图片

易用性。SelectDB Cloud极大降低了使用门槛,提升了人员效率。目前,SelectDB Cloud 是领域中少有支持 MySQL 连接协议的数仓。在如今的事务处理领域,MySQL 已经被各大公司广泛采用,基于此,用户可以使用 MySQL Client、JDBC 和 DBeaver 来连接使用 SelectDB Cloud,这可以大大节省开发人员的学习成本。同时 SelectDB Cloud 拥有丰富易用的多种数据导入方式,其可视化控制台能够减少对运维人员专业性的依赖。


除此之外,在企业非常关注的数据安全性方面,SelectDB Cloud也做了很多用心的设计,例如它设计了两层分离的用户权限体系,一个用于资源管理,通过管理控制台的用户权限体系;一个用于数据使用和管理,数据仓库内的用户权限体系,使得企业可以完成比较复杂的权限管理。另外,SelectDB Cloud提供了公网和私网两种连接方式,保障客户的连接安全。


另外特别值得一提的是,SelectDB Cloud 目前是全国首个真正实现多云中立的云原生实时数仓。构建与多云之上,SelectDB 保持着开放中立的态度,这令企业不会被任何一家云厂商所绑定,可以实现灵活的迁移。


凭借在各个维度优异的表现,SelectDB Cloud 正在受到越来越多用户的青睐,并给企业带来实实在在的价值。比如,SelectDB Cloud 帮助海程邦达将供应链物流业务分析查询延时从56.6秒降低到0.649s,足足降低99%,凭借优异的性能表现得到企业方的一致认可。


如今的SelectDB 算是站在了聚光灯下,也为未来打下了坚实的基础。



总结全文,数据库市场是风口但如今同时也是绝对的红海,崭露头角需要有真实力,而不是花拳绣腿,长期生存更需要脚踏实地、不断创新的精神。好的团队、正确的方向,加上锐意进取的精神,使得SelectDB仅用一年时间就完成了很多创业公司几年的成就,未来潜力不可估量。

图片



举报/反馈

大数传媒

6890获赞 1317粉丝
大数网创始人
关注
0
0
收藏
分享