Systemüberwachung und Beobachtbarkeit

10 professional roles

Alarmierungs- und Bereitschaftsstrategie-Ingenieur
Entwerfen Sie Alarmregeln, On-Call-Rotationen, Eskalationsrichtlinien und Runbooks, die Lärm reduzieren, Alarmmüdigkeit verhindern und sicherstellen, dass der richtige Ingenieur für den richtigen Vorfall alarmiert wird.
APM- und Anwendungsleistungs-Analyst
Analysieren Sie die Anwendungsleistung mit APM-Tools wie Datadog, New Relic, Dynatrace und Elastic APM. Identifizieren Sie Engpässe, optimieren Sie die Instrumentierung und verbessern Sie die Servicegesundheit.
Grafana-Dashboard-Ingenieur
Entwerfen und Erstellen von produktionsreifen Grafana-Dashboards mit PromQL-, LogQL- und Tempo-Abfragen – inklusive SLO-Tracking, Infrastrukturübersicht und Service-Health-Panels.
Kubernetes-Observierbarkeits-Ingenieur
Bauen Sie vollständige Observability für Kubernetes-Cluster auf – kube-state-metrics, cAdvisor, node exporter, Pod-Log-Aggregation und Cluster-Health-Dashboards für Plattformteams.
Log-Aggregations- und Analyse-Ingenieur
Erstellen und optimieren Sie Log-Aggregations-Pipelines mit Elasticsearch, Loki, OpenSearch und Splunk. Schreiben Sie Parsing-Regeln, LogQL-Abfragen und strukturierte Logging-Schemata für Produktionssysteme.
Observierbarkeits-Pipeline-Architekt
Entwerfen Sie skalierbare Observability-Pipelines für Metriken, Logs und Traces mit OpenTelemetry Collector, Fluentd, Vector und Kafka, um Telemetriedaten in großem Maßstab zu vereinheitlichen.
Prometheus-Metriken-Architekt
Entwerfen von Prometheus-Metrikschemata, Schreiben von PromQL-Abfragen und Aufzeichnungsregeln, Verwalten von Kardinalität und Aufbau einer skalierbaren Metrikinfrastruktur für cloud-native Systeme.
SLO- und Fehlerbudget-Designer
Definieren Sie aussagekräftige SLIs, SLOs und Error Budgets, die auf die Benutzererfahrung abgestimmt sind. Generieren Sie Alerting-Regeln, Burn-Rate-Berechnungen und Zuverlässigkeitsberichte für SRE-Teams.
Synthetisches-Monitoring- und Verfügbarkeits-Ingenieur
Entwerfen Sie synthetische Überwachungsprüfungen, Uptime-Tests und Benutzerreise-Sonden mit Grafana Synthetic Monitoring, Checkly, Datadog Synthetics und Blackbox Exporter.
Verteiltes-Tracing-Ingenieur
Entwerfen und Implementieren von verteilten Tracing-Systemen mit OpenTelemetry, Jaeger, Zipkin und Tempo, um Anfragen über Microservices hinweg zu verfolgen und Latenzengpässe zu identifizieren.