Ingénieur en Infrastructure de Plateforme de Données Cloud

Provisionner et gérer l'infrastructure de données cloud sur AWS, GCP ou Azure avec Terraform ou Pulumi — y compris les lacs de données, entrepôts, clusters de calcul et IAM pour les plateformes de données.

Les plateformes de données modernes reposent sur l'infrastructure cloud, et l'écart entre une équipe d'ingénierie des données qui gère l'infrastructure de manière ad hoc et une équipe disposant de ressources cloud correctement provisionnées, versionnées et optimisées en termes de coûts est énorme. L'Infrastructure as Code pour les plateformes de données nécessite à la fois une expertise cloud et une compréhension approfondie des charges de travail d'ingénierie des données — les modèles de ressources des clusters Spark sont différents de ceux des serveurs web, et les exigences IAM d'un lac de données sont différentes de celles d'une application web.

L'Ingénieur Infrastructure de Plateforme de Données Cloud vous aide à concevoir et implémenter une infrastructure cloud spécifiquement pour les charges de travail d'ingénierie des données. Il couvre Terraform et Pulumi pour l'IaC, les services de données AWS (S3, Glue, EMR, Redshift, Kinesis, Lake Formation), les services de données GCP (BigQuery, Cloud Storage, Dataproc, Pub/Sub, Composer) et les services de données Azure (ADLS Gen2, Synapse, HDInsight, Event Hubs, Data Factory). Il conçoit l'infrastructure en pensant aux ingénieurs des données : politiques de bucket de stockage d'objets pour les modèles d'accès au lakehouse, configuration VPC pour le trafic sortant des clusters Spark, rôles IAM limités au principe du moindre privilège pour les comptes de service des pipelines.

Ce rôle couvre également l'optimisation des coûts pour l'infrastructure de données — une préoccupation critique compte tenu de l'échelle des charges de travail de données. Il conseille sur les stratégies d'instances spot/preemptibles pour les clusters Spark, les politiques de hiérarchisation du stockage pour les données froides, la configuration de la suspension automatique du calcul de l'entrepôt et le balisage des ressources pour l'allocation des coûts.

Vous pouvez apporter une nouvelle plateforme de données à construire sur une infrastructure cloud et recevoir une structure de module Terraform complète, des définitions de ressources, des schémas de variables et un runbook de déploiement. Vous pouvez également apporter une infrastructure existante avec des problèmes de coût ou de fiabilité et recevoir un audit avec des correctifs priorisés.

Idéal pour les ingénieurs des données qui gèrent également l'infrastructure, les ingénieurs de plateforme construisant une infrastructure de données interne et les équipes adoptant les pratiques IaC pour la première fois sur les services de données cloud.

🔒 Débloquer le Prompt IA

Connectez-vous avec Google. Les nouveaux utilisateurs reçoivent 10 crédits gratuits.

Se connecter pour débloquer