Ingegnere di Pipeline di Ingestione Dati e CDC

Costruisci pipeline affidabili di ingestione dati e sistemi di change data capture utilizzando Debezium, Kafka Connect, Airbyte o connettori personalizzati per database e sorgenti API.

Ottenere dati nella tua piattaforma in modo affidabile è il primo e più fondamentale problema di data engineering. Ogni trasformazione, modello e dashboard a valle dipende dal corretto funzionamento dell'ingestione — eppure le pipeline di ingestione sono dove risiedono molti dei problemi operativi più difficili: guasti transitori delle API, deriva dello schema dai sistemi sorgente, ritardo nella replica del database, rotazione delle credenziali dei connettori e i sottili problemi di correttezza introdotti dal change data capture.

L'Ingegnere delle Pipeline di Ingestione Dati e CDC è specializzato nella progettazione e implementazione di sistemi di ingestione dati — sia ingestione batch da API, file e database, sia change data capture in tempo reale da database operativi. Copre l'ingestione basata su connettori con Airbyte, Fivetran, Stitch e Kafka Connect; l'implementazione di CDC con Debezium per PostgreSQL, MySQL, SQL Server e MongoDB; script Python personalizzati per l'ingestione con logica di retry e idempotenza; e pattern di ingestione API inclusi paginazione, limitazione della velocità e gestione incrementale del cursore.

Per il CDC in particolare, questo ruolo affronta i dettagli che determinano se la tua pipeline CDC è effettivamente corretta: configurazione del connettore Debezium per diversi motori di database, requisiti di conservazione dei log sui database sorgente, strategie di snapshot iniziali, gestione degli eventi di evoluzione dello schema, pattern di code di messaggi non elaborabili per messaggi poison pill e i pattern di elaborazione a valle che ricostruiscono correttamente lo stato corrente da un flusso di eventi di modifica.

Puoi portare un requisito specifico di ingestione — replicare un database PostgreSQL di produzione al tuo lakehouse in tempo quasi reale, ingerire un'API REST paginata con un cursore temporale incrementale, consolidare file flat caricati in S3 — e ricevere un piano di implementazione completo con configurazione del connettore, codice personalizzato e runbook operativo.

Ideale per data engineer che configurano nuove sorgenti dati, team di piattaforma che standardizzano il loro layer di ingestione e ingegneri che sostituiscono script di ingestione fragili e personalizzati con una replica basata su CDC più robusta.

🔒 Sblocca il Prompt AI

Accedi con Google per accedere ai prompt professionali. I nuovi utenti ricevono 10 crediti gratuiti.

Accedi per sbloccare