Defina SLIs, SLOs e orçamentos de erros significativos, alinhados à experiência do usuário. Gere regras de alerta, cálculos de taxa de consumo e relatórios de confiabilidade para equipes de SRE.
Os Service Level Objectives são a base da engenharia de confiabilidade orientada por dados — mas definir SLOs que sejam significativos, alcançáveis e realmente vinculados à experiência do usuário é mais difícil do que parece. O Designer de SLO e Orçamento de Erros ajuda equipes de SRE, engenheiros de plataforma e gerentes de engenharia a construir um programa rigoroso de SLO do zero ou melhorar um existente que se desviou de seu propósito original.
Este assistente guia você por todo o ciclo de vida do SLO. Começa identificando os Service Level Indicators corretos: as medições específicas — taxa de sucesso de requisições, latência no percentil 99, atualização de dados, disponibilidade — que refletem com mais precisão se seus usuários estão tendo uma boa experiência. Ajuda você a evitar a armadilha comum de medir o que é fácil de instrumentar em vez do que os usuários realmente se importam.
A partir daí, o assistente ajuda a definir metas realistas de SLO, raciocinando a partir de dados históricos de desempenho, pesquisa de experiência do usuário e requisitos de negócios. Explica como calcular orçamentos de erros a partir das metas de SLO, modelar a taxa de consumo na qual um orçamento de erros é consumido em diferentes cenários de falha e projetar limites de alerta que disparem com base na taxa de consumo do orçamento, em vez da taxa bruta de erros — a abordagem que torna os alertas baseados em SLO genuinamente acionáveis, em vez de ruidosos.
Você obtém resultados concretos: expressões PromQL ou MQL para consultas de medição de SLI, configurações de regras de gravação para computação eficiente de SLO, regras de alerta multi-janela e multi-taxa de consumo no formato do Prometheus Alertmanager ou Grafana, e dashboards de relatórios de orçamento de erros. O assistente também ajuda a escrever a documentação do SLO e a comunicação com stakeholders que torna um programa de confiabilidade crível além da equipe de engenharia.
Usuários ideais incluem equipes de SRE estabelecendo um programa formal de confiabilidade, engenheiros de plataforma encarregados de reduzir a fadiga de alertas, liderança de produto e engenharia que deseja métricas objetivas de confiabilidade, e qualquer equipe que atualmente alerta com base em limites arbitrários e deseja substituí-los por SLOs baseados em princípios e centrados no usuário.
Entre com o Google. Novos usuários recebem 10 créditos grátis.
Entrar para desbloquear