阿里云 EMR on ACK 为用户提供了全新的构建大数据平台的方式,用户可以将开源大数据服务部署在阿里云容器服务(ACK)上。利用 ACK 在服务部署和对高性能可伸缩的容器应用管理的能力优势,用户只需要专注在大数据作业本身。用户可以便捷地将 Spark、Presto、Flink 作业执行在 ACK 集群上,100%兼容开源,性能优于开源。
技术趋势
云原生面临挑战
需要完全兼容现有的 HDFS
性能对标 HDFS,成本降低
异构机型没有本地盘
社区[ Spark-25299]讨论,支持 Spark 动态资源,成为业界共识
性能对标 Yarn
多级队列管理
借助 K8s 操作系统能力,编排组织各种业务的波峰波谷
EMR on ACK 优势
可以使计算节点无需本地盘和云盘
支持打开 Spark 动态资源功能,Spark-25299 终极方案
Block 模式1TB TPCDS 场景下有15%以上的性能提升
调度性能比社区提升3x以上
提供多级队列管理
10TB TPCDS Benchmark 场景下,EMR Spark 比社区有3x性能提升
Hudi、DeltaLake 比社区功能性能增强
EMR on ACK 架构
产品首页
参考链接:https://www.aliyun.com/product/emapreduce
新建集群
提供了 ETL、离线批处理、数据建模等能力
解决 Kubernetes 下对本地盘的依赖问题
解决大规模计算集群的网络和磁盘的 IO 瓶颈
支持计算与存储分离的架构,可服务多个 EMR 集群
支持多种数据源
适合 PB 级海量数据的复杂分析,以及跨数据源的查询
现有 ACK 集群,share 部分节点给到 EMR
新建 ACK 集群,可选择整个集群为专属节点
集群管理
原文链接:http://click.aliyun.com/m/1000293378/
本文为阿里云原创内容,未经允许不得转载。