Observabilidade

Observabilidade é a capacidade de entender o que acontece dentro de um sistema olhando para seus sinais externos. É o hábito de ver as relações de causa e efeito antes de elas se tornarem sintomas. É a parte da prática de engenharia que transforma «algo quebrou» em «sabemos exatamente o que quebrou e por quê». Fazemos nossos próprios projetos, e para nós é importante perceber os problemas antes dos usuários. Idealmente no momento em que ainda é um pequeno desvio de métrica, bem antes de se tornar um incidente com chamadas noturnas.

Sinais
Contexto
Disciplina

O que consideramos boa observabilidade

Uma boa observabilidade responde à pergunta «por que e onde exatamente». Ilumina o caminho do usuário, mostra a degradação, detecta a regressão após um deploy, dá a possibilidade de fazer rollback com calma. Cala-se sobre pequenas coisas e fala alto quando é realmente necessário. Uma observabilidade ruim são dez alertas que ninguém olha, um dashboard com trinta gráficos em que não se encontra nada, logs em texto plano que não dá para filtrar. Uma boa são três métricas que realmente descrevem a saúde do sistema e logs estruturados em que a busca leva segundos. Gostamos da abordagem dos «três pilares» — métricas, logs, rastreamentos. As métricas respondem a «o que acontece na média», os logs a «o que aconteceu em um momento específico», os rastreamentos a «como uma requisição atravessou o sistema». Cada pilar é útil por si só. A mágica começa quando eles estão ligados: de um alerta de métrica você passa para os logs, dos logs para um rastreamento, do rastreamento para o código.

Monitoramento frontend privado

Um amor à parte é o monitoramento frontend privado. Você vê erros e desempenho reais no navegador, e os dados permanecem dentro da sua infraestrutura. Sem envio para serviços terceiros, sem dependência adicional, sem que seus usuários virem tráfego para o modelo publicitário de outra pessoa. Montamos um stack baseado em Grafana Faro, OpenTelemetry e um backend próprio para receber eventos. Uma solução dessas custa mais do que conectar um SaaS em cinco minutos. Um ano depois você tem uma infraestrutura que funciona sem dependência externa, sem limites de eventos, com um custo de posse previsível.

Uma imagem única

Quando os sinais de backend e frontend vivem juntos, você para de costurar os dados à mão e começa a ver o sistema inteiro de uma vez.

Alertas como prática de engenharia

Configurar um alerta é fácil. Ajustá-lo para disparar apenas quando realmente é preciso agir é difícil. Seguimos a regra: um alerta que disparou e não exigiu nada é um alerta ruim. Talvez o limiar esteja fora do lugar. Talvez a métrica seja uma escolha ruim. Talvez o problema já esteja resolvido automaticamente, e a pessoa recebe uma notificação em vão. Por isso, para nós cada alerta passa por um filtro: o que exatamente foi violado, por que é importante, qual ação é esperada, onde olhar. Com respostas claras a essas perguntas, o alerta fica. Alertas assim disparam raramente e sempre com motivo.

Como isso se manifesta nos nossos projetos

Coletamos sinais de forma que ajudem a tomar decisões: quais experimentos conduzir, o que otimizar, onde está o gargalo, quanto custa um erro. Onde ajuda, adicionamos formas rápidas de marcar eventos e experimentos, para substituir a crença pelo conhecimento. Em produtos com tráfego de usuários, temos por padrão um painel com Core Web Vitals, detalhamento por país e dispositivo, um olhar à parte sobre a «cauda» da distribuição — porque as médias mentem quase sempre. Em serviços de backend temos rastreamento através de toda a cadeia, sem o qual é impossível entender por que uma requisição específica levou sete segundos. Se você quer passar de «parece que piorou» para «aqui está a métrica, aqui está a causa, aqui está o momento da regressão» — esse é justamente o nosso estilo.

Status

A competência está ativa e cresce junto com nossos projetos — porque sem observabilidade qualquer sistema complexo se transforma rápido em um vaguear. Estamos prontos para assumir projetos do zero (montar o stack, configurar alertas, ensinar a equipe) e tarefas de desenredar um zoológico existente de dashboards: o que manter, o que remover, o que substituir.

Próximo
Busca Bíblica

Busca Bíblica

Ferramenta ortodoxa para pesquisar e estudar textos bíblicos. Pesquisa rápida, comparação de traduções, interpretações e modo infantil.