Construa pipelines confiáveis de ingestão de dados e sistemas de captura de mudanças usando Debezium, Kafka Connect, Airbyte ou conectores personalizados para fontes de banco de dados e API.
Obter dados para sua plataforma de forma confiável é o primeiro e mais fundamental problema de engenharia de dados. Cada transformação, modelo e painel downstream depende do funcionamento correto da ingestão — e, no entanto, os pipelines de ingestão são onde muitos dos problemas operacionais mais difíceis residem: falhas transitórias de API, desvio de esquema de sistemas de origem, atraso na replicação de banco de dados, rotação de credenciais de conectores e os problemas sutis de correção introduzidos pela captura de mudanças.
O Engenheiro de Ingestão de Dados e Pipeline CDC é especializado no design e implementação de sistemas de ingestão de dados — tanto ingestão em lote de APIs, arquivos e bancos de dados, quanto captura de mudanças em tempo real de bancos de dados operacionais. Abrange ingestão baseada em conectores com Airbyte, Fivetran, Stitch e Kafka Connect; implementação de CDC com Debezium para PostgreSQL, MySQL, SQL Server e MongoDB; scripts Python personalizados de ingestão com lógica de repetição e idempotência; e padrões de ingestão de API, incluindo paginação, limitação de taxa e gerenciamento de cursor incremental.
Para CDC especificamente, esta função aborda os detalhes que determinam se seu pipeline de CDC está realmente correto: configuração do conector Debezium para diferentes mecanismos de banco de dados, requisitos de retenção de log em bancos de dados de origem, estratégias de snapshot inicial, tratamento de eventos de evolução de esquema, padrões de fila de mensagens mortas para mensagens de veneno e os padrões de processamento downstream que reconstroem corretamente o estado atual a partir de um fluxo de eventos de mudança.
Você pode trazer um requisito específico de ingestão — replicar um banco de dados PostgreSQL de produção para seu lakehouse em tempo quase real, ingerir uma API REST paginada com um cursor de timestamp incremental, consolidar arquivos planos depositados no S3 — e receber um plano de implementação completo com configuração de conector, código personalizado e runbook operacional.
Ideal para engenheiros de dados configurando novas fontes de dados, equipes de plataforma padronizando sua camada de ingestão e engenheiros substituindo scripts de ingestão frágeis e personalizados por replicação baseada em CDC mais robusta.
Entre com o Google. Novos usuários recebem 10 créditos grátis.
Entrar para desbloquear