Observabilité

L'observabilité est la capacité de comprendre ce qui se passe à l'intérieur d'un système en regardant ses signaux externes. C'est l'habitude de voir les liens de cause à effet avant qu'ils ne deviennent des symptômes. C'est la partie de la pratique d'ingénierie qui transforme « quelque chose est cassé » en « nous savons exactement quoi et pourquoi ». Nous faisons nos propres projets, et il est important pour nous de repérer les problèmes avant les utilisateurs. Idéalement au moment où cela reste une petite déviation de métrique, bien avant que cela ne devienne un incident avec des appels nocturnes.

Signaux
Contexte
Discipline

Ce que nous considérons comme une bonne observabilité

Une bonne observabilité répond à la question « pourquoi et où exactement ». Elle éclaire le parcours de l'utilisateur, montre la dégradation, détecte une régression après un déploiement, permet de revenir en arrière sereinement. Elle se tait pour les broutilles et parle fort quand c'est vraiment nécessaire. Une mauvaise observabilité, ce sont dix alertes que personne ne regarde, un tableau de bord avec trente graphiques où l'on ne trouve rien, des logs en texte plat que l'on ne peut pas filtrer. Une bonne observabilité, ce sont trois métriques qui décrivent réellement la santé du système et des logs structurés où une recherche prend quelques secondes. Nous aimons l'approche des « trois piliers » — métriques, logs, traces. Les métriques répondent à « ce qui se passe en moyenne », les logs à « ce qui s'est passé à un moment précis », les traces à « comment une requête a traversé le système ». Chaque pilier est utile en lui-même. La magie commence quand ils sont liés : depuis une alerte sur une métrique, tu passes dans les logs, des logs vers une trace, de la trace vers le code.

Surveillance frontend privée

Un amour à part, c'est la surveillance frontend privée. Tu vois les vraies erreurs et les performances dans le navigateur, et les données restent à l'intérieur de ton infrastructure. Sans transmission à des services tiers, sans dépendance supplémentaire, sans que tes utilisateurs deviennent du trafic pour le modèle publicitaire de quelqu'un d'autre. Nous assemblons un stack basé sur Grafana Faro, OpenTelemetry et notre propre backend pour la réception d'événements. Une telle solution coûte plus cher que de brancher un SaaS en cinq minutes. Un an plus tard, tu as une infrastructure qui fonctionne sans dépendance externe, sans limites d'événements, avec un coût de possession prévisible.

Une image unique

Quand les signaux backend et frontend vivent ensemble, tu cesses de recoller les données à la main et tu commences à voir le système entier d'un coup.

Les alertes comme pratique d'ingénierie

Mettre en place une alerte est simple. La régler pour qu'elle ne se déclenche que quand une action est vraiment requise est difficile. Nous suivons la règle : une alerte qui s'est déclenchée et qui n'a demandé aucune action est une mauvaise alerte. Peut-être que le seuil est mal placé. Peut-être que la métrique est un mauvais choix. Peut-être que le problème est déjà résolu automatiquement, et l'humain reçoit une notification pour rien. C'est pourquoi chez nous chaque alerte passe par un filtre : qu'est-ce qui est précisément violé, pourquoi c'est important, quelle action est attendue, où regarder. Avec des réponses claires à ces questions, l'alerte reste. De telles alertes se déclenchent rarement et toujours à propos.

Comment cela se manifeste dans nos projets

Nous collectons les signaux de façon qu'ils aident à prendre des décisions : quelles expériences mener, quoi optimiser, où est le goulot d'étranglement, combien coûte une erreur. Là où c'est utile, nous ajoutons des moyens rapides de marquer les événements et les expériences, afin de remplacer la croyance par la connaissance. Dans les produits à trafic utilisateur, nous avons par défaut un panneau avec les Core Web Vitals, une ventilation par pays et par appareils, une vue dédiée à la « queue » de la distribution — parce que les moyennes mentent presque toujours. Dans les services backend, nous avons le tracing à travers toute la chaîne, sans lequel on ne peut pas comprendre pourquoi une requête précise a pris sept secondes. Si tu veux passer de « on dirait que c'est pire » à « voici la métrique, voici la cause, voici le moment de la régression » — c'est exactement notre style.

Statut

La compétence est active et grandit avec nos projets — parce que sans observabilité, tout système complexe se transforme vite en errance. Nous sommes prêts à prendre des projets depuis zéro (poser le stack, configurer les alertes, former l'équipe) et des tâches de démêlage d'un zoo existant de tableaux de bord : quoi garder, quoi enlever, quoi remplacer.

Suivant
Recherche Biblique

Recherche Biblique

Outil orthodoxe pour rechercher et étudier les textes bibliques. Recherche rapide, comparaison des traductions, interprétations et mode enfant.