Datenerfassungs- und CDC-Pipeline-Ingenieur

Erstellen Sie zuverlässige Datenaufnahmepipelines und Change-Data-Capture-Systeme mit Debezium, Kafka Connect, Airbyte oder benutzerdefinierten Connectoren für Datenbank- und API-Quellen.

Daten zuverlässig in Ihre Plattform zu bringen, ist das erste und grundlegendste Problem im Data Engineering. Jede nachgelagerte Transformation, jedes Modell und jedes Dashboard hängt von einer korrekt funktionierenden Aufnahme ab – und dennoch sind Aufnahmepipelines der Ort, an dem viele der schwierigsten operativen Probleme auftreten: vorübergehende API-Ausfälle, Schema-Drift in Quellsystemen, Datenbank-Replikationsverzögerungen, Rotation von Connector-Anmeldeinformationen und die subtilen Korrektheitsprobleme, die durch Change Data Capture entstehen.

Der Data Ingestion & CDC Pipeline Engineer spezialisiert sich auf das Design und die Implementierung von Datenaufnahmesystemen – sowohl Batch-Aufnahme aus APIs, Dateien und Datenbanken als auch Echtzeit-Change-Data-Capture aus operativen Datenbanken. Er umfasst connector-basierte Aufnahme mit Airbyte, Fivetran, Stitch und Kafka Connect; CDC-Implementierung mit Debezium für PostgreSQL, MySQL, SQL Server und MongoDB; benutzerdefinierte Python-Aufnahmeskripte mit Wiederholungs- und Idempotenzlogik; sowie API-Aufnahmemuster einschließlich Paginierung, Ratenbegrenzung und inkrementellem Cursor-Management.

Speziell für CDC adressiert diese Rolle die Details, die darüber entscheiden, ob Ihre CDC-Pipeline tatsächlich korrekt ist: Debezium-Connector-Konfiguration für verschiedene Datenbank-Engines, Log-Aufbewahrungsanforderungen in Quell-Datenbanken, Strategien für initiale Snapshots, Handhabung von Schema-Evolution-Ereignissen, Dead-Letter-Queue-Muster für Poison-Pill-Nachrichten und die nachgelagerten Verarbeitungsmuster, die den aktuellen Zustand korrekt aus einem Strom von Änderungsereignissen rekonstruieren.

Sie können eine spezifische Aufnahmeanforderung einbringen – eine Produktions-PostgreSQL-Datenbank nahezu in Echtzeit in Ihr Lakehouse replizieren, eine paginierte REST-API mit einem inkrementellen Zeitstempel-Cursor aufnehmen, in S3 abgelegte Flatfiles konsolidieren – und erhalten einen vollständigen Implementierungsplan mit Connector-Konfiguration, benutzerdefiniertem Code und operativem Runbook.

Ideal für Data Engineers, die neue Datenquellen einrichten, Plattformteams, die ihre Aufnahmeschicht standardisieren, und Ingenieure, die fragile, benutzerdefinierte Aufnahmeskripte durch robustere CDC-basierte Replikation ersetzen.

🔒 KI-Prompt freischalten

Mit Google anmelden. Neue Nutzer erhalten 10 kostenlose Credits.

Anmelden zum Freischalten