Osservabilità

L'osservabilità è la capacità di capire cosa accade all'interno di un sistema guardandone i segnali esterni. È l'abitudine di vedere i legami di causa ed effetto prima che si trasformino in sintomi. È la parte della pratica ingegneristica che trasforma «qualcosa si è rotto» in «sappiamo esattamente cosa e perché». Facciamo i nostri progetti, e per noi conta accorgerci dei problemi prima degli utenti. Idealmente nel momento in cui è ancora una piccola deviazione di metrica, molto prima che diventi un incidente con chiamate notturne.

Cosa consideriamo una buona osservabilità

Una buona osservabilità risponde alla domanda «perché e dove esattamente». Illumina il percorso dell'utente, mostra la degradazione, rileva la regressione dopo un rilascio, dà la possibilità di fare rollback con calma. Tace sulle sciocchezze e parla forte quando serve davvero. Una cattiva osservabilità sono dieci allarmi che nessuno guarda, un dashboard con trenta grafici in cui non si trova nulla, log in testo piatto che non si possono filtrare. Una buona sono tre metriche che descrivono davvero la salute del sistema e log strutturati in cui la ricerca richiede secondi. Amiamo l'approccio dei «tre pilastri» — metriche, log, tracce. Le metriche rispondono a «cosa accade in media», i log a «cosa è successo in un momento preciso», le tracce a «come una richiesta ha attraversato il sistema». Ogni pilastro è utile da solo. La magia inizia quando sono collegati: da un allarme di metrica passi ai log, dai log a una traccia, dalla traccia al codice.

Monitoraggio frontend privato

Un amore a parte è il monitoraggio frontend privato. Vedi errori e prestazioni reali nel browser, e i dati restano dentro la tua infrastruttura. Senza invio a servizi di terze parti, senza dipendenze aggiuntive, senza che i tuoi utenti diventino traffico per il modello pubblicitario di qualcun altro. Mettiamo insieme uno stack basato su Grafana Faro, OpenTelemetry e un backend proprio per la ricezione degli eventi. Una soluzione così costa di più che collegare un SaaS in cinque minuti. Un anno dopo hai un'infrastruttura che funziona senza dipendenze esterne, senza limiti di eventi, con un costo di possesso prevedibile.

Quando i segnali backend e frontend vivono insieme, smetti di cucire i dati a mano e inizi a vedere l'intero sistema in un colpo solo.

Gli allarmi come pratica ingegneristica

Configurare un allarme è facile. Regolarlo perché scatti solo quando serve davvero un'azione è difficile. Seguiamo la regola: un allarme che è scattato e non ha richiesto nulla è un allarme cattivo. Forse la soglia è messa male. Forse la metrica è una scelta sbagliata. Forse il problema è già risolto automaticamente, e la persona riceve una notifica a vuoto. Per questo da noi ogni allarme passa per un filtro: cosa è stato violato esattamente, perché è importante, quale azione è attesa, dove guardare. Con risposte chiare a queste domande, l'allarme resta. Allarmi così scattano di rado e sempre con motivo.

Come si manifesta nei nostri progetti

Raccogliamo i segnali in modo che aiutino a prendere decisioni: quali esperimenti condurre, cosa ottimizzare, dov'è il collo di bottiglia, quanto costa un errore. Dove serve, aggiungiamo modi rapidi per marcare eventi ed esperimenti, per sostituire la credenza con la conoscenza. Nei prodotti con traffico utenti abbiamo di default un pannello con Core Web Vitals, scomposizione per paesi e dispositivi, uno sguardo a parte sulla «coda» della distribuzione — perché le medie mentono quasi sempre. Nei servizi backend abbiamo il tracing attraverso l'intera catena, senza il quale è impossibile capire perché una richiesta specifica abbia impiegato sette secondi. Se vuoi passare da «sembra peggiorato» a «ecco la metrica, ecco la causa, ecco il momento della regressione» — è esattamente il nostro stile.

Stato

La competenza è attiva e cresce con i nostri progetti — perché senza osservabilità ogni sistema complesso si trasforma in fretta in un vagare. Siamo pronti a prendere progetti da zero (mettere lo stack, configurare gli allarmi, formare il team) e compiti di districamento di uno zoo esistente di dashboard: cosa tenere, cosa togliere, cosa sostituire.

Avanti

Ricerca Biblica

Strumento ortodosso per cercare e studiare i testi biblici. Ricerca rapida, confronto traduzioni, interpretazioni e modalità bambini.

→