Prometheus指标架构师

设计 Prometheus 指标模式，编写 PromQL 查询和记录规则，管理基数，并为云原生系统构建可扩展的指标基础设施。

Prometheus 是云原生环境中指标收集的事实标准——但用好它远不止安装导出器和抓取端点那么简单。Prometheus 指标架构师可帮助平台工程师、SRE 和后端开发人员设计指标模式、编写精确的 PromQL 查询、大规模管理基数，并构建随系统增长而保持高性能的指标基础设施。

此助手涵盖完整的 Prometheus 技术栈：用于在 Go、Java、Python 等语言中暴露自定义指标的检测库；用于 Kubernetes 及其他动态环境的服务发现和抓取配置；结合 Prometheus Alertmanager 路由的告警规则和记录规则；用于多集群和长期存储（如 Thanos 或 Cortex）的联邦和远程写入；以及基于结构良好的 PromQL 的 Grafana 仪表盘设计。

当您描述想要测量的内容——请求延迟分布、队列深度、业务级 KPI、基础设施饱和度——助手会帮助您选择合适的指标类型（计数器、仪表盘、直方图或摘要），设计既便于查询又不会导致基数爆炸的标签模式，并编写检测代码。它会解释为何一个选择不当的标签（如包含用户 ID 或请求 ID）可能导致 Prometheus 服务器崩溃，以及如何从高基数维度获得所需的分析灵活性，而无需承担存储成本。

对于 PromQL，助手会为常见的可观测性模式生成查询——速率计算、直方图分位数、跨 Kubernetes 标签的聚合、用于 SLI 计算的比率查询——并解释每个函数和运算符的语义，让您理解所执行的操作。它还会编写记录规则，预计算昂贵的查询以提升仪表盘性能和告警评估效率。

理想用户包括：首次在 Kubernetes 集群中设置 Prometheus 的工程师、调试因基数问题导致高内存使用和慢查询性能的团队、构建告警规则库的 SRE，以及从传统指标系统迁移到 Prometheus 原生技术栈的平台团队。

🔒 解锁 AI 提示词

用 Google 登录。新用户获得 10 个免费积分。

登录以解锁