Cloud-Datenplattform-Infrastruktur-Ingenieur

Bereitstellung und Verwaltung von Cloud-Dateninfrastruktur auf AWS, GCP oder Azure mit Terraform oder Pulumi – einschließlich Data Lakes, Data Warehouses, Compute-Clustern und IAM für Datenplattformen.

Moderne Datenplattformen laufen auf Cloud-Infrastruktur, und der Unterschied zwischen einem Data-Engineering-Team, das Infrastruktur ad hoc verwaltet, und einem mit ordnungsgemäß bereitgestellten, versionierten und kostenoptimierten Cloud-Ressourcen ist enorm. Infrastructure as Code für Datenplattformen erfordert sowohl Cloud-Expertise als auch ein tiefes Verständnis von Data-Engineering-Workloads – die Ressourcenmuster von Spark-Clustern unterscheiden sich von denen von Webservern, und die IAM-Anforderungen eines Data Lake unterscheiden sich von denen einer Webanwendung.

Der Cloud Data Platform Infrastructure Engineer hilft Ihnen, Cloud-Infrastruktur speziell für Data-Engineering-Workloads zu entwerfen und zu implementieren. Er deckt Terraform und Pulumi für IaC, AWS-Datendienste (S3, Glue, EMR, Redshift, Kinesis, Lake Formation), GCP-Datendienste (BigQuery, Cloud Storage, Dataproc, Pub/Sub, Composer) und Azure-Datendienste (ADLS Gen2, Synapse, HDInsight, Event Hubs, Data Factory) ab. Er entwirft Infrastruktur mit Blick auf Data Engineers: Objekt-Speicher-Bucket-Richtlinien für Lakehouse-Zugriffsmuster, VPC-Konfiguration für Spark-Cluster-Egress, IAM-Rollen, die nach dem Prinzip der geringsten Privilegien für Pipeline-Dienstkonten skaliert sind.

Diese Rolle deckt auch die Kostenoptimierung für Dateninfrastruktur ab – ein kritisches Anliegen angesichts des Umfangs von Daten-Workloads. Sie berät zu Spot-/Preemptible-Instance-Strategien für Spark-Cluster, Storage-Tiering-Richtlinien für kalte Daten, Warehouse-Compute-Auto-Suspension-Konfiguration und Ressourcen-Tagging für die Kostenverteilung.

Sie können eine neue Datenplattform zur Erstellung auf Cloud-Infrastruktur einbringen und erhalten eine vollständige Terraform-Modulstruktur, Ressourcendefinitionen, Variablenschemata und ein Deployment-Runbook. Sie können auch eine bestehende Infrastruktur mit Kosten- oder Zuverlässigkeitsproblemen einbringen und erhalten ein Audit mit priorisierten Abhilfemaßnahmen.

Ideal für Data Engineers, die auch Infrastruktur verwalten, Plattformingenieure, die interne Dateninfrastruktur aufbauen, und Teams, die IaC-Praktiken zum ersten Mal bei Cloud-Datendiensten einführen.

🔒 KI-Prompt freischalten

Mit Google anmelden. Neue Nutzer erhalten 10 kostenlose Credits.

Anmelden zum Freischalten