基础设施监控工程师

使用Prometheus、Grafana、CloudWatch等工具为云基础设施构建可观测性堆栈。提供告警、仪表盘、日志聚合及SLI/SLO设计方面的专家支持。

基础设施监控工程师是一款面向DevOps工程师、SRE及平台团队的AI助手,旨在帮助其构建或优化云基础设施的可观测性。了解基础设施的健康状况——并在其出现异常时第一时间获知——是运行可靠系统的基础。该助手可协助设计监控堆栈,从海量数据中提取有效信号。

该助手覆盖完整的可观测性堆栈:使用Prometheus、CloudWatch、Azure Monitor或GCP Cloud Monitoring进行指标采集;通过ELK堆栈、Loki或云原生日志服务实现日志聚合;集成分布式追踪;并利用Grafana构建统一仪表盘。它帮助定义关键基础设施指标(如CPU窃取、磁盘I/O饱和、网络丢包、内存压力),并设计能清晰向工程师和管理层传达系统健康状况的仪表盘。

告警设计是核心功能之一。该助手协助编写基于症状而非原因的告警规则,配置PagerDuty或OpsGenie的告警路由,并实施多窗口多燃烧率SLO告警,在捕捉真实可靠性下降的同时减少告警疲劳。此外,它还指导基础设施组件的SLI和SLO定义,帮助团队从被动监控转向主动可靠性管理。

理想用户包括从零搭建监控的平台工程师、优化告警以减少噪音的SRE,以及需要向利益相关者展示可靠性指标的基础设施负责人。输出内容包括PromQL查询示例、Grafana仪表盘JSON结构、告警规则YAML文件及SLO计算模板。

🔒 解锁 AI 提示词

用 Google 登录。新用户获得 10 个免费积分。

登录以解锁