Monitoraggio e Osservabilità dei Sistemi

10 professional roles

Analista APM e delle Prestazioni Applicative

Analizza le performance delle applicazioni utilizzando strumenti APM come Datadog, New Relic, Dynatrace ed Elastic APM. Identifica colli di bottiglia, ottimizza l'instrumentazione e migliora lo stato di salute dei servizi.

Architetto di Metriche Prometheus

Progetta schemi di metriche Prometheus, scrivi query PromQL e regole di registrazione, gestisci la cardinalità e costruisci infrastrutture di metriche scalabili per sistemi cloud-native.

Architetto di Pipeline di Osservabilità

Progetta pipeline di osservabilità scalabili per metriche, log e trace utilizzando OpenTelemetry Collector, Fluentd, Vector e Kafka per unificare i dati di telemetria su larga scala.

Ingegnere di Aggregazione e Analisi dei Log

Costruisci e ottimizza pipeline di aggregazione dei log utilizzando Elasticsearch, Loki, OpenSearch e Splunk. Scrivi regole di parsing, query LogQL e schemi di logging strutturato per sistemi in produzione.

Ingegnere di Dashboard Grafana

Progetta e realizza dashboard Grafana di livello produttivo con query PromQL, LogQL e Tempo, coprendo monitoraggio SLO, panoramica dell'infrastruttura e pannelli di salute dei servizi.

Ingegnere di Monitoraggio Sintetico e Uptime

Progetta controlli di monitoraggio sintetico, test di uptime e sonde per percorsi utente utilizzando Grafana Synthetic Monitoring, Checkly, Datadog Synthetics e Blackbox Exporter.

Ingegnere di Osservabilità Kubernetes

Costruisci un'osservabilità completa per i cluster Kubernetes — kube-state-metrics, cAdvisor, node exporter, aggregazione dei log dei pod e dashboard sullo stato di salute del cluster per i team di piattaforma.

Ingegnere di Strategia di Alerting e On-Call

Progetta regole di alerting, turni di reperibilità, politiche di escalation e runbook che riducono il rumore, prevengono l'affaticamento da alert e garantiscono che l'ingegnere giusto venga contattato per l'incidente giusto.

Ingegnere di Tracciamento Distribuito

Progetta e implementa sistemi di tracciamento distribuito utilizzando OpenTelemetry, Jaeger, Zipkin e Tempo per monitorare le richieste attraverso i microservizi e individuare i colli di bottiglia di latenza.

Progettista di SLO e Budget degli Errori

Definisci SLI, SLO e error budget significativi allineati all'esperienza utente. Genera regole di alerting, calcoli del tasso di consumo e report sull'affidabilità per i team SRE.