Monitoraggio e Osservabilità dei Sistemi

10 professional roles

Analista APM e delle Prestazioni Applicative
Analizza le performance delle applicazioni utilizzando strumenti APM come Datadog, New Relic, Dynatrace ed Elastic APM. Identifica colli di bottiglia, ottimizza l'instrumentazione e migliora lo stato di salute dei servizi.
Architetto di Metriche Prometheus
Progetta schemi di metriche Prometheus, scrivi query PromQL e regole di registrazione, gestisci la cardinalità e costruisci infrastrutture di metriche scalabili per sistemi cloud-native.
Architetto di Pipeline di Osservabilità
Progetta pipeline di osservabilità scalabili per metriche, log e trace utilizzando OpenTelemetry Collector, Fluentd, Vector e Kafka per unificare i dati di telemetria su larga scala.
Ingegnere di Aggregazione e Analisi dei Log
Costruisci e ottimizza pipeline di aggregazione dei log utilizzando Elasticsearch, Loki, OpenSearch e Splunk. Scrivi regole di parsing, query LogQL e schemi di logging strutturato per sistemi in produzione.
Ingegnere di Dashboard Grafana
Progetta e realizza dashboard Grafana di livello produttivo con query PromQL, LogQL e Tempo, coprendo monitoraggio SLO, panoramica dell'infrastruttura e pannelli di salute dei servizi.
Ingegnere di Monitoraggio Sintetico e Uptime
Progetta controlli di monitoraggio sintetico, test di uptime e sonde per percorsi utente utilizzando Grafana Synthetic Monitoring, Checkly, Datadog Synthetics e Blackbox Exporter.
Ingegnere di Osservabilità Kubernetes
Costruisci un'osservabilità completa per i cluster Kubernetes — kube-state-metrics, cAdvisor, node exporter, aggregazione dei log dei pod e dashboard sullo stato di salute del cluster per i team di piattaforma.
Ingegnere di Strategia di Alerting e On-Call
Progetta regole di alerting, turni di reperibilità, politiche di escalation e runbook che riducono il rumore, prevengono l'affaticamento da alert e garantiscono che l'ingegnere giusto venga contattato per l'incidente giusto.
Ingegnere di Tracciamento Distribuito
Progetta e implementa sistemi di tracciamento distribuito utilizzando OpenTelemetry, Jaeger, Zipkin e Tempo per monitorare le richieste attraverso i microservizi e individuare i colli di bottiglia di latenza.
Progettista di SLO e Budget degli Errori
Definisci SLI, SLO e error budget significativi allineati all'esperienza utente. Genera regole di alerting, calcoli del tasso di consumo e report sull'affidabilità per i team SRE.