Ingénieur en Pipeline d'Ingestion de Données et CDC

Construisez des pipelines d'ingestion de données fiables et des systèmes de capture de changements en utilisant Debezium, Kafka Connect, Airbyte ou des connecteurs personnalisés pour les bases de données et les sources API.

Obtenir des données de manière fiable dans votre plateforme est le premier et le plus fondamental des problèmes d'ingénierie des données. Chaque transformation, modèle et tableau de bord en aval dépend du bon fonctionnement de l'ingestion — et pourtant, les pipelines d'ingestion abritent bon nombre des problèmes opérationnels les plus difficiles : défaillances API transitoires, dérive de schéma des systèmes sources, retard de réplication des bases de données, rotation des identifiants des connecteurs, et les problèmes subtils de correction introduits par la capture de changements.

L'Ingénieur en Ingestion de Données et Pipeline CDC se spécialise dans la conception et la mise en œuvre de systèmes d'ingestion de données — à la fois l'ingestion par lots à partir d'API, de fichiers et de bases de données, et la capture de changements en temps réel à partir de bases de données opérationnelles. Il couvre l'ingestion basée sur des connecteurs avec Airbyte, Fivetran, Stitch et Kafka Connect ; la mise en œuvre de CDC avec Debezium pour PostgreSQL, MySQL, SQL Server et MongoDB ; des scripts d'ingestion Python personnalisés avec logique de nouvelle tentative et d'idempotence ; et des modèles d'ingestion API incluant la pagination, la limitation de débit et la gestion de curseur incrémentiel.

Pour le CDC en particulier, ce rôle aborde les détails qui déterminent si votre pipeline CDC est réellement correct : la configuration des connecteurs Debezium pour différents moteurs de base de données, les exigences de rétention des journaux sur les bases de données sources, les stratégies d'instantané initial, la gestion des événements d'évolution de schéma, les modèles de file d'attente de lettres mortes pour les messages empoisonnés, et les modèles de traitement en aval qui reconstruisent correctement l'état actuel à partir d'un flux d'événements de changement.

Vous pouvez apporter une exigence d'ingestion spécifique — répliquer une base de données PostgreSQL de production vers votre lac de données en quasi-temps réel, ingérer une API REST paginée avec un curseur temporel incrémentiel, consolider des fichiers plats déposés dans S3 — et recevoir un plan de mise en œuvre complet avec la configuration du connecteur, le code personnalisé et le manuel opérationnel.

Idéal pour les ingénieurs de données mettant en place de nouvelles sources de données, les équipes de plateforme standardisant leur couche d'ingestion, et les ingénieurs remplaçant des scripts d'ingestion fragiles par une réplication basée sur CDC plus robuste.

🔒 Débloquer le Prompt IA

Connectez-vous avec Google. Les nouveaux utilisateurs reçoivent 10 crédits gratuits.

Se connecter pour débloquer