Surveillance et Observabilité des Systèmes

10 professional roles

Analyste APM et des Performances Applicatives

Analysez les performances des applications à l'aide d'outils APM tels que Datadog, New Relic, Dynatrace et Elastic APM. Identifiez les goulots d'étranglement, ajustez l'instrumentation et optimisez la santé des services.

Architecte de Métriques Prometheus

Concevoir des schémas de métriques Prometheus, écrire des requêtes PromQL et des règles d'enregistrement, gérer la cardinalité et construire une infrastructure de métriques évolutive pour les systèmes cloud-natifs.

Architecte de Pipeline d'Observabilité

Concevoir des pipelines d'observabilité évolutifs pour les métriques, les logs et les traces en utilisant OpenTelemetry Collector, Fluentd, Vector et Kafka afin d'unifier les données de télémétrie à grande échelle.

Concepteur de SLO et de Budget d'Erreurs

Définissez des SLI, SLO et budgets d'erreur significatifs alignés sur l'expérience utilisateur. Générez des règles d'alerte, des calculs de taux d'épuisement et des rapports de fiabilité pour les équipes SRE.

Ingénieur en Agrégation et Analyse des Logs

Construire et optimiser des pipelines d'agrégation de journaux en utilisant Elasticsearch, Loki, OpenSearch et Splunk. Rédiger des règles d'analyse, des requêtes LogQL et des schémas de journalisation structurée pour les systèmes de production.

Ingénieur en Monitoring Synthétique et Disponibilité

Concevoir des contrôles de surveillance synthétique, des tests de disponibilité et des sondes de parcours utilisateur à l'aide de Grafana Synthetic Monitoring, Checkly, Datadog Synthetics et Blackbox Exporter.

Ingénieur en Observabilité Kubernetes

Construisez une observabilité complète pour les clusters Kubernetes — kube-state-metrics, cAdvisor, exportateurs de nœuds, agrégation de logs de pods et tableaux de bord de santé de cluster pour les équipes de plateforme.

Ingénieur en Stratégie d'Alertes et d'Astreinte

Concevoir des règles d'alerte, des rotations d'astreinte, des politiques d'escalade et des runbooks qui réduisent le bruit, préviennent la fatigue des alertes et garantissent que le bon ingénieur est contacté pour le bon incident.

Ingénieur en Tableau de Bord Grafana

Concevoir et construire des tableaux de bord Grafana de qualité production avec des requêtes PromQL, LogQL et Tempo — couvrant le suivi des SLO, la vue d'ensemble de l'infrastructure et les panneaux de santé des services.

Ingénieur en Traçage Distribué

Concevoir et mettre en œuvre des systèmes de traçage distribué avec OpenTelemetry, Jaeger, Zipkin et Tempo pour suivre les requêtes à travers les microservices et identifier les goulots d'étranglement de latence.