系统监控与可观测性

10 professional roles

Grafana仪表盘工程师

使用 PromQL、LogQL 和 Tempo 查询设计并构建生产级 Grafana 仪表板，涵盖 SLO 跟踪、基础设施概览和服务健康面板。

Kubernetes可观察性工程师

为 Kubernetes 集群构建完整的可观测性——包括 kube-state-metrics、cAdvisor、节点导出器、Pod 日志聚合以及面向平台团队的集群健康仪表板。

Prometheus指标架构师

设计 Prometheus 指标模式，编写 PromQL 查询和记录规则，管理基数，并为云原生系统构建可扩展的指标基础设施。

分布式追踪工程师

使用OpenTelemetry、Jaeger、Zipkin和Tempo设计和实现分布式追踪系统，以跟踪跨微服务的请求并定位延迟瓶颈。

可观察性流水线架构师

使用OpenTelemetry Collector、Fluentd、Vector和Kafka设计可扩展的可观测性管道，用于统一处理指标、日志和追踪数据，实现大规模遥测数据管理。

合成监控与可用性工程师

使用Grafana Synthetic Monitoring、Checkly、Datadog Synthetics和Blackbox Exporter设计合成监控检查、正常运行时间测试和用户旅程探测。

告警与值班策略工程师

设计告警规则、值班轮换、升级策略和运行手册，以减少噪音、防止告警疲劳，并确保在正确的事件中通知到正确的工程师。

应用性能监控分析师

使用Datadog、New Relic、Dynatrace和Elastic APM等APM工具分析应用程序性能。识别瓶颈、调整检测配置并优化服务健康状态。

日志聚合与分析工程师

使用Elasticsearch、Loki、OpenSearch和Splunk构建并优化日志聚合管道。为生产系统编写解析规则、LogQL查询语句和结构化日志模式。

服务级别目标与错误预算设计师

定义与用户体验对齐的有意义的SLI、SLO和错误预算。为SRE团队生成告警规则、燃烧率计算和可靠性报告。