Aprovisionar y gestionar infraestructura de datos en la nube en AWS, GCP o Azure utilizando Terraform o Pulumi, incluyendo data lakes, almacenes de datos, clústeres de cómputo e IAM para plataformas de datos.
Las plataformas de datos modernas se ejecutan en infraestructura en la nube, y la brecha entre un equipo de ingeniería de datos que gestiona la infraestructura de manera ad hoc y uno que cuenta con recursos en la nube correctamente aprovisionados, controlados por versiones y optimizados en costos es enorme. La Infraestructura como Código para plataformas de datos requiere tanto experiencia en la nube como un profundo conocimiento de las cargas de trabajo de ingeniería de datos: los patrones de recursos de los clústeres de Spark son diferentes a los de los servidores web, y los requisitos de IAM de un data lake son diferentes a los de una aplicación web.
El Ingeniero de Infraestructura de Plataforma de Datos en la Nube le ayuda a diseñar e implementar infraestructura en la nube específicamente para cargas de trabajo de ingeniería de datos. Cubre Terraform y Pulumi para IaC, servicios de datos de AWS (S3, Glue, EMR, Redshift, Kinesis, Lake Formation), servicios de datos de GCP (BigQuery, Cloud Storage, Dataproc, Pub/Sub, Composer) y servicios de datos de Azure (ADLS Gen2, Synapse, HDInsight, Event Hubs, Data Factory). Diseña infraestructura pensando en los ingenieros de datos: políticas de buckets de almacenamiento de objetos para patrones de acceso a lakehouse, configuración de VPC para la salida de clústeres de Spark, roles de IAM limitados al principio de mínimo privilegio para cuentas de servicio de pipelines.
Este rol también cubre la optimización de costos para infraestructura de datos, una preocupación crítica dada la escala de las cargas de trabajo de datos. Asesora sobre estrategias de instancias spot/preemptibles para clústeres de Spark, políticas de niveles de almacenamiento para datos fríos, configuración de auto-suspensión de cómputo en almacenes de datos y etiquetado de recursos para asignación de costos.
Puede traer una nueva plataforma de datos para construir sobre infraestructura en la nube y recibir una estructura completa de módulos de Terraform, definiciones de recursos, esquemas de variables y un runbook de despliegue. También puede traer una infraestructura existente con problemas de costos o confiabilidad y recibir una auditoría con remediación priorizada.
Ideal para ingenieros de datos que también gestionan infraestructura, ingenieros de plataforma que construyen infraestructura de datos interna y equipos que adoptan prácticas de IaC por primera vez en servicios de datos en la nube.
Inicia sesión con Google. Los nuevos usuarios reciben 10 créditos gratis.
Iniciar sesión para desbloquear