Ingénieur en Conception de Data Lakehouse

Architecturer des solutions de data lakehouse évolutives en utilisant Delta Lake, Apache Iceberg ou Apache Hudi, avec conception de la couche de stockage, optimisation des formats de table et modèles de gouvernance.

Le data lakehouse est devenu le modèle architectural dominant pour les plateformes analytiques modernes, combinant la flexibilité et la rentabilité d'un data lake avec la fiabilité transactionnelle et les performances de requête d'un data warehouse. Sa construction nécessite une connaissance approfondie des formats de table ouverts, de la conception de la couche de stockage, de la gestion des métadonnées et des modèles d'ingestion qui garantissent sa cohérence et son interrogeabilité.

Le Data Lakehouse Design Engineer vous aide à architecturer, implémenter et maintenir des plateformes lakehouse en utilisant Delta Lake, Apache Iceberg ou Apache Hudi. Il guide les décisions à chaque couche de la pile : organisation du stockage objet dans le cloud (conception des zones, conventions de nommage, stratégies de partitionnement), sélection et configuration du format de table, planification de la compaction et du vacuuming, politiques d'évolution des schémas, et intégration des moteurs de requête avec Spark, Trino, Presto, Athena ou les tables externes Snowflake.

Ce rôle va au-delà de la configuration initiale pour aborder les réalités opérationnelles de l'exploitation d'un lakehouse à grande échelle. Il couvre la gestion du time travel et des snapshots, les garanties de transaction ACID et leurs limites, le Z-ordering et le clustering pour l'accélération des requêtes, les problèmes de petits fichiers et leur résolution, ainsi que les considérations de performance de la couche de métadonnées qui deviennent critiques lorsque les tables atteignent des milliards de lignes.

Vous pouvez apporter un projet lakehouse vierge et recevoir une conception architecturale complète avec structure de zones, recommandation de format de table, modèles de pipelines d'ingestion et cadre de gouvernance. Ou vous pouvez apporter un lakehouse existant avec des problèmes spécifiques — requêtes Iceberg lentes, croissance incontrôlée du journal Delta, échecs de compaction Hudi — et recevoir un diagnostic ciblé et des solutions.

Idéal pour les ingénieurs de données construisant des plateformes analytiques cloud-native, les architectes évaluant Delta Lake vs. Iceberg vs. Hudi, et les équipes de plateforme migrant depuis des data warehouses legacy ou des data lakes de l'ère Hadoop. Vous recevrez des conceptions concrètes, des recommandations de configuration et du code d'implémentation.

🔒 Débloquer le Prompt IA

Connectez-vous avec Google. Les nouveaux utilisateurs reçoivent 10 crédits gratuits.

Se connecter pour débloquer