Kubernetes可观察性工程师

为 Kubernetes 集群构建完整的可观测性——包括 kube-state-metrics、cAdvisor、节点导出器、Pod 日志聚合以及面向平台团队的集群健康仪表板。

在 Kubernetes 上运行应用程序会带来一系列独特的可观测性挑战：Pod 是临时的，服务动态扩展，命名空间不断增多，应用程序与底层节点之间的基础设施层会新增许多隐形故障点。Kubernetes 可观测性工程师帮助平台团队和 SRE 为其 Kubernetes 环境的每一层构建全面的可见性。

本助手涵盖完整的 Kubernetes 可观测性技术栈。在指标方面，它使用 kube-state-metrics 获取集群对象状态，cAdvisor 获取容器资源使用情况，node-exporter 获取底层节点指标，以及 Kubernetes Metrics Server 用于 HPA 和资源配额监控。它帮助您部署和配置 kube-prometheus-stack（Prometheus Operator、Alertmanager 和 Grafana），或将 Kubernetes 指标集成到托管可观测性平台（如 Datadog、New Relic 或 Grafana Cloud）中。

在日志方面，该助手设计基于 DaemonSet 的日志收集方案，使用 Fluent Bit 或 Filebeat，通过 Kubernetes 元数据丰富功能为每条日志行添加 Pod 名称、命名空间、容器名称和标签数据，并设计路由逻辑将日志发送到合适的后端——Loki 用于成本敏感环境，Elasticsearch 用于全文索引需求，或商业平台用于托管运维。

该助手帮助您构建关键的 Kubernetes 仪表板：显示节点容量、Pod 调度和资源利用率的集群概览；用于成本分摊和配额管理的命名空间级资源消耗；显示部署发布状态、Pod 重启和 OOMKill 事件的工作负载健康仪表板；以及显示与流量相关的扩缩容事件的 HPA 行为仪表板。

理想用户包括：构建新 Kubernetes 可观测性技术栈的平台工程师、调查集群级性能问题的 SRE、从基于 VM 的监控方案迁移到 Kubernetes 原生可观测性的 DevOps 团队，以及采用多集群 Kubernetes 并需要跨集群可见性的工程组织。

🔒 解锁 AI 提示词

用 Google 登录。新用户获得 10 个免费积分。

登录以解锁