Incidentes
Un incidente representa una caída confirmada de un servicio. A diferencia de un único check fallido, el incidente agrupa todo el periodo de indisponibilidad en un solo objeto con inicio, duración y cierre.
¿Qué es un incidente?
Cuando un monitor pasa al estado DOWN de forma confirmada, StatusInspector abre automáticamente un incidente. El incidente:
- Registra el momento exacto en que se detectó la caída.
- Acumula el número de checks fallidos mientras la caída continúa.
- Se cierra con la hora de resolución y la duración total cuando el servicio se recupera.
Solo puede haber un incidente abierto por monitor al mismo tiempo.
Los incidentes son la fuente de verdad para las alertas DOWN / recuperación y para la página de estado pública.
¿Cuándo se abre un incidente?
Un incidente se abre cuando se cumplen todas estas condiciones:
- El monitor no está en mantenimiento.
- El estado agregado del monitor transiciona a DOWN (primera transición confirmada en ese ciclo).
- No existe ya un incidente abierto para ese monitor.
Importante: El estado DEGRADED no abre incidente. Un servicio lento pero que responde sigue siendo tratado como parcialmente operativo.
Monitores HTTP, TCP, DNS, SSL y Ping
La transición a DOWN requiere que el consenso multi-región lo confirme: una mayoría de probes (según el plan) deben coincidir en el fallo dentro de la misma ventana de check. Un solo probe fallando no es suficiente para abrir un incidente.
Monitores Heartbeat
El incidente se abre cuando el sistema detecta silencio más allá del periodo + grace configurados sin haber recibido un ping válido desde el último ciclo conforme.
¿Cuándo se cierra un incidente?
Un incidente se cierra cuando el servicio vuelve a estar UP de forma estable. Para monitores sintéticos (HTTP, TCP, etc.), el sistema requiere al menos 2 checks consecutivos con resultado UP antes de confirmar la recuperación y cerrar el incidente. Esta histéresis evita que un monitor que oscila entre DOWN y UP genere cierres y reaperturas en rápida sucesión.
La alerta de recuperación se envía en el mismo momento en que el incidente se cierra.
Para Heartbeat, el incidente se cierra al recibir el primer ping válido mientras el incidente está abierto.
Estados del incidente
| Estado | Descripción |
|---|---|
| Abierto | Caída activa. Registra la hora de inicio; aún no tiene hora de resolución. |
| Resuelto | Recuperación confirmada. Registra la hora de resolución y la duración total. |
Relación con las alertas
Las alertas se disparan en función del ciclo de vida del incidente:
- Alerta DOWN: se envía al abrir el incidente, en los canales donde tienes activa la notificación de caída.
- Alerta de recuperación: se envía al cerrar el incidente, en los canales donde tienes activa la notificación de recuperación.
- DOWN sostenido: mientras el incidente permanece abierto, no se reenvía la alerta en cada check fallido — solo se actualiza el contador de fallos.
Las alertas DEGRADED son independientes del ciclo de incidentes: no abren ni cierran incidentes.
DEGRADED no abre incidentes
El estado DEGRADED (latencia alta u otra condición de calidad degradada) no genera un incidente de disponibilidad. Si quieres recibir notificaciones ante DEGRADED, activa ese evento en la regla de alerta del monitor.
Si un monitor está DEGRADED y el servicio empeora hasta DOWN, en ese momento sí se abre el incidente. Al recuperarse desde DOWN hasta UP, el incidente se cierra normalmente.
Mantenimiento y pausa
- Con mantenimiento activo: no se abren ni cierran incidentes por disponibilidad. El sistema sigue ejecutando checks para recopilar datos, pero no actúa sobre incidentes ni envía alertas de disponibilidad.
- Con monitor pausado: los checks dejan de ejecutarse completamente.
Incidentes en la página de estado pública
Los incidentes automáticos aparecen en la página de estado pública con información reducida: fecha de inicio, duración y estado (en curso / resuelto). No se muestran URLs, IPs ni mensajes de error internos.
Además de los incidentes automáticos, puedes crear incidentes manuales desde el panel para comunicar situaciones que el sistema no detecta automáticamente (por ejemplo, un incidente en un proveedor externo). Ver Crear una página de estado.
Historial y métricas
El historial completo de incidentes por monitor está disponible en el panel. Para cada incidente resuelto puedes consultar:
- Inicio y fin (en tu zona horaria configurada).
- Duración total.
- Código y mensaje del último error registrado.
- Número de checks fallidos durante el incidente.