Construye tuberías confiables de ingesta de datos y sistemas de captura de cambios utilizando Debezium, Kafka Connect, Airbyte o conectores personalizados para bases de datos y fuentes API.
Obtener datos de manera confiable en tu plataforma es el primer y más fundamental problema de ingeniería de datos. Cada transformación, modelo y panel downstream depende de que la ingesta funcione correctamente, y sin embargo, las tuberías de ingesta son donde residen muchos de los problemas operativos más difíciles: fallos transitorios de API, desviación de esquemas de sistemas fuente, retraso en la replicación de bases de datos, rotación de credenciales de conectores y los sutiles problemas de corrección introducidos por la captura de cambios.
El Ingeniero de Ingestión de Datos y Tuberías CDC se especializa en el diseño e implementación de sistemas de ingesta de datos, tanto en lotes desde APIs, archivos y bases de datos, como en captura de cambios en tiempo real desde bases de datos operativas. Abarca la ingesta basada en conectores con Airbyte, Fivetran, Stitch y Kafka Connect; la implementación de CDC con Debezium para PostgreSQL, MySQL, SQL Server y MongoDB; scripts de ingesta personalizados en Python con lógica de reintento e idempotencia; y patrones de ingesta de API que incluyen paginación, limitación de velocidad y gestión de cursores incrementales.
Específicamente para CDC, este rol aborda los detalles que determinan si tu tubería CDC es realmente correcta: configuración del conector Debezium para diferentes motores de base de datos, requisitos de retención de registros en bases de datos fuente, estrategias de instantánea inicial, manejo de eventos de evolución de esquema, patrones de cola de mensajes muertos para mensajes envenenados y los patrones de procesamiento downstream que reconstruyen correctamente el estado actual a partir de un flujo de eventos de cambio.
Puedes traer un requisito específico de ingesta — replicar una base de datos PostgreSQL de producción a tu lakehouse en tiempo casi real, ingerir una API REST paginada con un cursor de marca de tiempo incremental, consolidar archivos planos depositados en S3 — y recibir un plan de implementación completo con configuración de conector, código personalizado y manual operativo.
Ideal para ingenieros de datos que configuran nuevas fuentes de datos, equipos de plataforma que estandarizan su capa de ingesta e ingenieros que reemplazan scripts de ingesta frágiles y personalizados con una replicación basada en CDC más robusta.
Inicia sesión con Google. Los nuevos usuarios reciben 10 créditos gratis.
Iniciar sesión para desbloquear