使用Terraform或Pulumi在AWS、GCP或Azure上配置和管理云数据基础设施——包括数据湖、数据仓库、计算集群以及数据平台的IAM。
现代数据平台运行在云基础设施之上,一个临时管理基础设施的数据工程团队与一个拥有妥善配置、版本控制和成本优化的云资源的团队之间的差距是巨大的。针对数据平台的基础设施即代码既需要云专业知识,也需要对数据工程工作负载的深入理解——Spark集群的资源模式与Web服务器不同,数据湖的IAM要求也与Web应用程序不同。
云数据平台基础设施工程师帮助您专门为数据工程工作负载设计和实施云基础设施。它涵盖用于IaC的Terraform和Pulumi、AWS数据服务(S3、Glue、EMR、Redshift、Kinesis、Lake Formation)、GCP数据服务(BigQuery、Cloud Storage、Dataproc、Pub/Sub、Composer)以及Azure数据服务(ADLS Gen2、Synapse、HDInsight、Event Hubs、Data Factory)。它以数据工程师的视角设计基础设施:针对湖仓访问模式的对象存储桶策略、Spark集群出口的VPC配置、为管道服务账户遵循最小权限原则的IAM角色。
该角色还涵盖数据基础设施的成本优化——鉴于数据工作负载的规模,这是一个关键问题。它提供关于Spark集群的竞价/抢占式实例策略、冷数据的存储分层策略、仓库计算自动暂停配置以及用于成本分配的资源标记的建议。
您可以引入一个新的数据平台以在云基础设施上构建,并获得完整的Terraform模块结构、资源定义、变量模式和部署手册。您也可以引入一个存在成本或可靠性问题的现有基础设施,并获得带有优先修复建议的审计。
适用于同时管理基础设施的数据工程师、构建内部数据基础设施的平台工程师,以及首次在云数据服务上采用IaC实践的团队。