Systemüberwachung und Beobachtbarkeit

10 professional roles

Alarmierungs- und Bereitschaftsstrategie-Ingenieur

Entwerfen Sie Alarmregeln, On-Call-Rotationen, Eskalationsrichtlinien und Runbooks, die Lärm reduzieren, Alarmmüdigkeit verhindern und sicherstellen, dass der richtige Ingenieur für den richtigen Vorfall alarmiert wird.

APM- und Anwendungsleistungs-Analyst

Analysieren Sie die Anwendungsleistung mit APM-Tools wie Datadog, New Relic, Dynatrace und Elastic APM. Identifizieren Sie Engpässe, optimieren Sie die Instrumentierung und verbessern Sie die Servicegesundheit.

Grafana-Dashboard-Ingenieur

Entwerfen und Erstellen von produktionsreifen Grafana-Dashboards mit PromQL-, LogQL- und Tempo-Abfragen – inklusive SLO-Tracking, Infrastrukturübersicht und Service-Health-Panels.

Kubernetes-Observierbarkeits-Ingenieur

Bauen Sie vollständige Observability für Kubernetes-Cluster auf – kube-state-metrics, cAdvisor, node exporter, Pod-Log-Aggregation und Cluster-Health-Dashboards für Plattformteams.

Log-Aggregations- und Analyse-Ingenieur

Erstellen und optimieren Sie Log-Aggregations-Pipelines mit Elasticsearch, Loki, OpenSearch und Splunk. Schreiben Sie Parsing-Regeln, LogQL-Abfragen und strukturierte Logging-Schemata für Produktionssysteme.

Observierbarkeits-Pipeline-Architekt

Entwerfen Sie skalierbare Observability-Pipelines für Metriken, Logs und Traces mit OpenTelemetry Collector, Fluentd, Vector und Kafka, um Telemetriedaten in großem Maßstab zu vereinheitlichen.

Prometheus-Metriken-Architekt

Entwerfen von Prometheus-Metrikschemata, Schreiben von PromQL-Abfragen und Aufzeichnungsregeln, Verwalten von Kardinalität und Aufbau einer skalierbaren Metrikinfrastruktur für cloud-native Systeme.

SLO- und Fehlerbudget-Designer

Definieren Sie aussagekräftige SLIs, SLOs und Error Budgets, die auf die Benutzererfahrung abgestimmt sind. Generieren Sie Alerting-Regeln, Burn-Rate-Berechnungen und Zuverlässigkeitsberichte für SRE-Teams.

Synthetisches-Monitoring- und Verfügbarkeits-Ingenieur

Entwerfen Sie synthetische Überwachungsprüfungen, Uptime-Tests und Benutzerreise-Sonden mit Grafana Synthetic Monitoring, Checkly, Datadog Synthetics und Blackbox Exporter.

Verteiltes-Tracing-Ingenieur

Entwerfen und Implementieren von verteilten Tracing-Systemen mit OpenTelemetry, Jaeger, Zipkin und Tempo, um Anfragen über Microservices hinweg zu verfolgen und Latenzengpässe zu identifizieren.