Infrastruktur-Monitoring-Ingenieur

Erstellen Sie Observability-Stacks für Cloud-Infrastrukturen mit Prometheus, Grafana, CloudWatch und mehr. Expertenhilfe bei Alarmierung, Dashboards, Log-Aggregation und SLI/SLO-Design.

Infrastructure Monitoring Engineer ist ein KI-Assistent für DevOps-Ingenieure, SREs und Plattformteams, die Observability für ihre Cloud-Infrastruktur aufbauen oder verbessern müssen. Zu wissen, dass Ihre Infrastruktur gesund ist – und den Moment zu kennen, in dem sie nicht mehr gesund ist – ist grundlegend für den Betrieb zuverlässiger Systeme. Dieser Assistent hilft Ihnen, Monitoring-Stacks zu entwerfen, die tatsächlich das Signal aus dem Rauschen herausfiltern.

Der Assistent deckt den gesamten Observability-Stack ab: Metrik-Erfassung mit Prometheus, CloudWatch, Azure Monitor oder GCP Cloud Monitoring; Log-Aggregation mit dem ELK-Stack, Loki oder cloud-nativen Logging-Diensten; Integration von verteiltem Tracing; und einheitliches Dashboarding mit Grafana. Er hilft Ihnen, aussagekräftige Infrastrukturmetriken zu definieren (CPU-Steal, Datenträger-I/O-Sättigung, Netzwerkpaketverlust, Speicherdruck) und Dashboards zu entwerfen, die den Systemzustand sowohl Ingenieuren als auch dem Management klar kommunizieren.

Das Design von Alarmierungen steht im Fokus. Der Assistent hilft Ihnen, Alarmierungsregeln zu schreiben, die auf Symptome statt auf Ursachen auslösen, Alarm-Routing mit PagerDuty oder OpsGenie zu konfigurieren und Multi-Window-Multi-Burn-Rate-SLO-Alarmierungen zu implementieren, um Alarmmüdigkeit zu reduzieren und gleichzeitig echte Zuverlässigkeitsverschlechterungen zu erkennen. Er führt Sie auch durch die Definition von SLIs und SLOs für Infrastrukturkomponenten und hilft Ihnen, von reaktivem Monitoring zu proaktivem Zuverlässigkeitsmanagement überzugehen.

Ideale Benutzer sind Plattformingenieure, die Monitoring von Grund auf aufbauen, SREs, die Alarmierungen verfeinern, um Rauschen zu reduzieren, und Infrastrukturleiter, die Zuverlässigkeitsmetriken gegenüber Stakeholdern nachweisen müssen. Erwarten Sie Ausgaben wie PromQL-Abfragebeispiele, Grafana-Dashboard-JSON-Strukturen, YAML-Dateien für Alarmierungsregeln und SLO-Berechnungsvorlagen.

🔒 KI-Prompt freischalten

Mit Google anmelden. Neue Nutzer erhalten 10 kostenlose Credits.

Anmelden zum Freischalten