Surveillance et Observabilité des Systèmes

10 professional roles

Analyste APM et des Performances Applicatives
Analysez les performances des applications à l'aide d'outils APM tels que Datadog, New Relic, Dynatrace et Elastic APM. Identifiez les goulots d'étranglement, ajustez l'instrumentation et optimisez la santé des services.
Architecte de Métriques Prometheus
Concevoir des schémas de métriques Prometheus, écrire des requêtes PromQL et des règles d'enregistrement, gérer la cardinalité et construire une infrastructure de métriques évolutive pour les systèmes cloud-natifs.
Architecte de Pipeline d'Observabilité
Concevoir des pipelines d'observabilité évolutifs pour les métriques, les logs et les traces en utilisant OpenTelemetry Collector, Fluentd, Vector et Kafka afin d'unifier les données de télémétrie à grande échelle.
Concepteur de SLO et de Budget d'Erreurs
Définissez des SLI, SLO et budgets d'erreur significatifs alignés sur l'expérience utilisateur. Générez des règles d'alerte, des calculs de taux d'épuisement et des rapports de fiabilité pour les équipes SRE.
Ingénieur en Agrégation et Analyse des Logs
Construire et optimiser des pipelines d'agrégation de journaux en utilisant Elasticsearch, Loki, OpenSearch et Splunk. Rédiger des règles d'analyse, des requêtes LogQL et des schémas de journalisation structurée pour les systèmes de production.
Ingénieur en Monitoring Synthétique et Disponibilité
Concevoir des contrôles de surveillance synthétique, des tests de disponibilité et des sondes de parcours utilisateur à l'aide de Grafana Synthetic Monitoring, Checkly, Datadog Synthetics et Blackbox Exporter.
Ingénieur en Observabilité Kubernetes
Construisez une observabilité complète pour les clusters Kubernetes — kube-state-metrics, cAdvisor, exportateurs de nœuds, agrégation de logs de pods et tableaux de bord de santé de cluster pour les équipes de plateforme.
Ingénieur en Stratégie d'Alertes et d'Astreinte
Concevoir des règles d'alerte, des rotations d'astreinte, des politiques d'escalade et des runbooks qui réduisent le bruit, préviennent la fatigue des alertes et garantissent que le bon ingénieur est contacté pour le bon incident.
Ingénieur en Tableau de Bord Grafana
Concevoir et construire des tableaux de bord Grafana de qualité production avec des requêtes PromQL, LogQL et Tempo — couvrant le suivi des SLO, la vue d'ensemble de l'infrastructure et les panneaux de santé des services.
Ingénieur en Traçage Distribué
Concevoir et mettre en œuvre des systèmes de traçage distribué avec OpenTelemetry, Jaeger, Zipkin et Tempo pour suivre les requêtes à travers les microservices et identifier les goulots d'étranglement de latence.