Khả Năng Quan Sát
Khả năng quan sát là năng lực hiểu được điều gì đang diễn ra bên trong một hệ thống bằng cách nhìn vào các tín hiệu bên ngoài của nó. Đó là thói quen nhìn thấy mối quan hệ nhân quả trước khi chúng biến thành triệu chứng. Đó là phần thực hành kỹ thuật biến «có thứ gì đó bị hỏng» thành «chúng ta biết chính xác thứ gì hỏng và tại sao». Chúng tôi làm các dự án của mình, và điều quan trọng với chúng tôi là nhận ra các vấn đề sớm hơn người dùng. Lý tưởng là ngay tại khoảnh khắc khi đó vẫn chỉ là một sai lệch nhỏ của chỉ số, từ rất lâu trước khi nó biến thành một sự cố với những cuộc gọi lúc nửa đêm.



Điều chúng tôi coi là khả năng quan sát tốt
Khả năng quan sát tốt trả lời câu hỏi «tại sao và ở đâu chính xác». Nó soi sáng hành trình của người dùng, cho thấy sự suy giảm, phát hiện sự thoái lui sau khi phát hành, và cho cơ hội quay lui một cách bình tĩnh. Nó im lặng trước những chuyện vặt và lên tiếng thật to khi thực sự cần thiết. Khả năng quan sát tồi là mười cảnh báo mà không ai nhìn vào, một bảng điều khiển với ba mươi biểu đồ mà không tìm thấy gì, các nhật ký ở dạng văn bản phẳng không thể lọc được. Tốt là ba chỉ số thực sự mô tả sức khỏe của hệ thống, cùng với nhật ký có cấu trúc trong đó việc tìm kiếm chỉ mất vài giây. Chúng tôi thích cách tiếp cận «ba trụ cột» — số liệu, nhật ký, dấu vết. Số liệu trả lời «điều gì đang diễn ra ở mức trung bình», nhật ký trả lời «điều gì đã xảy ra tại một thời điểm cụ thể», dấu vết trả lời «một yêu cầu đi qua hệ thống như thế nào». Mỗi trụ cột đều hữu ích tự thân. Phép màu bắt đầu khi chúng liên kết với nhau: từ cảnh báo trên chỉ số, bạn nhảy vào nhật ký, từ nhật ký sang dấu vết, từ dấu vết sang mã.
Giám sát frontend riêng tư
Một tình yêu riêng của chúng tôi là giám sát frontend riêng tư. Bạn thấy các lỗi và hiệu năng thực sự trong trình duyệt, trong khi dữ liệu vẫn nằm trong hạ tầng của bạn. Không chuyển sang dịch vụ bên thứ ba, không phụ thuộc thêm, không biến người dùng của bạn thành lưu lượng cho mô hình quảng cáo của người khác. Chúng tôi xây dựng ngăn xếp trên nền Grafana Faro, OpenTelemetry và backend riêng để tiếp nhận sự kiện. Giải pháp như thế tốn kém hơn việc cắm một dịch vụ SaaS trong năm phút. Một năm sau, bạn có một hạ tầng hoạt động mà không cần phụ thuộc bên ngoài, không có giới hạn sự kiện, với chi phí sở hữu có thể dự đoán được.

Khi các tín hiệu backend và frontend cùng chung sống, bạn thôi ghép dữ liệu bằng tay và bắt đầu nhìn toàn bộ hệ thống trong một cái nhìn.
Cảnh báo như một thực hành kỹ thuật
Thiết lập một cảnh báo thì dễ. Điều chỉnh nó để chỉ bật lên khi thực sự cần hành động thì khó. Chúng tôi theo quy tắc: một cảnh báo đã bật lên mà không đòi hỏi việc phải làm gì là một cảnh báo tồi. Có lẽ ngưỡng đặt lệch chỗ. Có lẽ chỉ số được chọn không phù hợp. Có lẽ vấn đề đã được giải quyết tự động, còn con người nhận được thông báo một cách vô ích. Vì vậy ở chỗ chúng tôi, mỗi cảnh báo đều đi qua một bộ lọc: điều gì đã bị vi phạm chính xác, tại sao nó quan trọng, hành động nào được mong đợi, phải nhìn vào đâu. Với câu trả lời rõ ràng cho những câu hỏi này, cảnh báo sẽ được giữ lại. Những cảnh báo như vậy hiếm khi bật lên và luôn đúng trọng tâm.
Điều này thể hiện ra sao trong các dự án của chúng tôi
Chúng tôi thu thập tín hiệu sao cho chúng giúp đưa ra quyết định: nên tiến hành thí nghiệm nào, tối ưu hóa cái gì, nút thắt nằm ở đâu, một lỗi sai có giá bao nhiêu. Ở những nơi hữu ích, chúng tôi bổ sung các cách đánh dấu sự kiện và thí nghiệm một cách nhanh chóng để thay niềm tin bằng hiểu biết. Trong các sản phẩm có lưu lượng người dùng, chúng tôi mặc định có một bảng với Core Web Vitals, phân tách theo quốc gia và thiết bị, một góc nhìn riêng dành cho «đuôi» của phân phối — bởi vì các giá trị trung bình gần như luôn nói dối. Trong các dịch vụ backend, chúng tôi có tracing xuyên suốt cả chuỗi, không có nó thì không thể hiểu vì sao một yêu cầu cụ thể mất tới bảy giây. Nếu bạn muốn chuyển từ «cảm giác có vẻ tệ hơn» sang «đây là chỉ số, đây là nguyên nhân, đây là khoảnh khắc thoái lui» — đó chính là phong cách của chúng tôi.
Trạng thái
Năng lực này đang hoạt động và phát triển cùng các dự án của chúng tôi — vì nếu thiếu khả năng quan sát, bất kỳ hệ thống phức tạp nào cũng nhanh chóng biến thành sự lang thang. Chúng tôi sẵn sàng nhận các dự án từ số không (dựng ngăn xếp, cấu hình cảnh báo, đào tạo đội ngũ) và các nhiệm vụ gỡ rối một vườn thú bảng điều khiển hiện có: giữ lại cái gì, loại bỏ cái gì, thay thế cái gì. Công cụ chính thống để tìm kiếm và nghiên cứu các văn bản Kinh thánh. Tìm kiếm nhanh, so sánh bản dịch, giải thích và chế độ trẻ em.
Tìm Kiếm Kinh Thánh