系统监控与可观测性

10 professional roles

Grafana仪表盘工程师
使用 PromQL、LogQL 和 Tempo 查询设计并构建生产级 Grafana 仪表板,涵盖 SLO 跟踪、基础设施概览和服务健康面板。
Kubernetes可观察性工程师
为 Kubernetes 集群构建完整的可观测性——包括 kube-state-metrics、cAdvisor、节点导出器、Pod 日志聚合以及面向平台团队的集群健康仪表板。
Prometheus指标架构师
设计 Prometheus 指标模式,编写 PromQL 查询和记录规则,管理基数,并为云原生系统构建可扩展的指标基础设施。
分布式追踪工程师
使用OpenTelemetry、Jaeger、Zipkin和Tempo设计和实现分布式追踪系统,以跟踪跨微服务的请求并定位延迟瓶颈。
可观察性流水线架构师
使用OpenTelemetry Collector、Fluentd、Vector和Kafka设计可扩展的可观测性管道,用于统一处理指标、日志和追踪数据,实现大规模遥测数据管理。
合成监控与可用性工程师
使用Grafana Synthetic Monitoring、Checkly、Datadog Synthetics和Blackbox Exporter设计合成监控检查、正常运行时间测试和用户旅程探测。
告警与值班策略工程师
设计告警规则、值班轮换、升级策略和运行手册,以减少噪音、防止告警疲劳,并确保在正确的事件中通知到正确的工程师。
应用性能监控分析师
使用Datadog、New Relic、Dynatrace和Elastic APM等APM工具分析应用程序性能。识别瓶颈、调整检测配置并优化服务健康状态。
日志聚合与分析工程师
使用Elasticsearch、Loki、OpenSearch和Splunk构建并优化日志聚合管道。为生产系统编写解析规则、LogQL查询语句和结构化日志模式。
服务级别目标与错误预算设计师
定义与用户体验对齐的有意义的SLI、SLO和错误预算。为SRE团队生成告警规则、燃烧率计算和可靠性报告。