Saltar al contenido principal

Cómo funciona el monitoreo

StatusInspector monitoriza tus servicios desde múltiples puntos geográficos al mismo tiempo, consolida los resultados y solo te alerta cuando hay evidencia real de un problema. Esta página explica cómo funciona ese proceso.


Los dos componentes: Hub y Probes

El sistema tiene dos piezas con roles bien separados:

Hub (control central) : El cerebro del sistema. Orquesta todos los monitores, decide cuándo y desde dónde ejecutar cada check, recibe los resultados de las distintas regiones, aplica la lógica de consenso, gestiona incidentes y envía alertas. No ejecuta checks directamente.

Probes (agentes regionales) : Agentes ligeros desplegados en distintas regiones geográficas. Cada probe consulta periódicamente el hub para recoger las verificaciones pendientes asignadas a su región, las ejecuta de forma local e independiente, y reporta el resultado de vuelta. Los probes operan de forma autónoma: no dependen de conexiones persistentes ni de que el hub los contacte directamente. Las decisiones sobre incidentes y alertas son exclusivas del hub.

Hub (central)
├── Publica verificaciones pendientes
├── Consolida resultados regionales
├── Abre / cierra incidentes
└── Envía alertas

── Fase 1: cada probe consulta trabajo pendiente ──────────────
Probe América → Hub: "¿Hay checks para mi región?"
Probe Europa → Hub: "¿Hay checks para mi región?"
Probe Asia → Hub: "¿Hay checks para mi región?"
Hub → Probe: parámetros del monitor

── Fase 2: cada probe ejecuta localmente y reporta ────────────
Probe América → ejecuta check → reporta resultado al Hub
Probe Europa → ejecuta check → reporta resultado al Hub
Probe Asia → ejecuta check → reporta resultado al Hub

── Fase 3: el Hub decide ──────────────────────────────────────
Hub: consenso → estado → incidente → alerta

El ciclo de un check

Cada vez que un monitor está listo para ejecutarse, el proceso sigue estos pasos:

  1. Programación — el scheduler del hub detecta que es momento de ejecutar el monitor según su intervalo configurado (por ejemplo, cada minuto).

  2. Publicación — el hub registra el check como trabajo pendiente, disponible para los probes de las regiones activas. El número de probes que pueden tomarlo depende de tu plan (1, 3 o 5 nodos).

  3. Consulta y ejecución — cada probe interroga al hub en busca de trabajo pendiente para su región, toma la verificación asignada y la ejecuta localmente de forma independiente: hace la petición HTTP, abre la conexión TCP, consulta el DNS, envía el ping ICMP, etc.

  4. Reporte — el probe envía el resultado al hub: estado (up, down o degraded), latencia medida en milisegundos, y detalles del error si los hay.

  5. Consenso — el hub acumula los resultados de todos los probes en una ventana de tiempo y calcula el estado global del monitor.

  6. Incidente — si el estado cambia (por ejemplo, de up a down), el hub abre un incidente automáticamente.

  7. Alerta — el hub envía notificaciones a los canales configurados según las reglas del monitor.


Consenso multi-región: sin falsas alarmas

La clave para evitar alertas innecesarias es el consenso multi-región: el hub no declara una caída basándose en el resultado de un solo probe, sino en la coincidencia de varios probes independientes.

Ejemplo con 3 probes (plan Pro):

Probe AméricaProbe EuropaProbe AsiaResultado
DOWNDOWNUPDOWN confirmado (2 de 3 coinciden)
DOWNUPUPDescartado — falla local o transitoria
DOWNDOWNDOWNDOWN confirmado (unanimidad)

Esto filtra problemas puntuales de red, picos de latencia momentáneos y errores transitorios del probe — que de otro modo generarían alertas falsas.

El número de probes que participan por check depende de tu plan:

PlanProbes por check
Free1
Pro3
Enterprise5

Estados de salud

Cada ciclo de check produce uno de estos tres estados:

EstadoSignificado
UPEl servicio responde correctamente en la mayoría de regiones.
DEGRADEDResponde, pero con latencia alta u otras señales de deterioro.
DOWNEl servicio falla en la mayoría de regiones activas.

El estado DEGRADED es intermedio: el sistema espera confirmar varias evaluaciones consecutivas antes de considerarlo definitivo, para evitar ruido por resultados contradictorios puntuales entre regiones. Recibirás una alerta de degradación, y cuando el servicio se recupere, una alerta de recuperación.


Del fallo al incidente y la alerta

Este es el flujo completo desde que un servicio cae hasta que se resuelve:

Servicio cae
→ Probes detectan DOWN
→ Consenso confirma DOWN
→ Incidente abierto (fecha y hora de inicio registrada)
→ Alerta enviada: "Tu servicio está DOWN"

[Servicio en DOWN durante N minutos...]

→ Probes detectan que el servicio responde de nuevo
→ Consenso confirma recuperación
→ Incidente cerrado (duración total calculada)
→ Alerta de recuperación enviada

¿Cuánto tarda en detectar una caída? Depende del intervalo del monitor. Con un intervalo de 1 minuto (plan Pro), el tiempo máximo de detección es de aproximadamente 60 segundos desde que ocurre el fallo.


Monitores Heartbeat: el modo inverso

Para procesos internos sin URL pública — backups nocturnos, crons, pipelines de datos — el modelo se invierte: tu sistema llama a StatusInspector, en lugar de que StatusInspector llame a tu sistema.

Así funciona:

  1. StatusInspector te asigna una URL única para el monitor.
  2. Cuando tu proceso termina correctamente, envía una señal GET o POST a esa URL.
  3. StatusInspector espera esa señal dentro de una ventana configurable:
    • period — cada cuánto tiempo esperas que llegue la señal (ej. cada 24 horas).
    • grace — margen de tolerancia adicional antes de declarar fallo (ej. 30 minutos).
  4. Si la señal no llega dentro del periodo más la gracia, se abre un incidente y se envía una alerta.

Ejemplo práctico:

Tienes un backup que corre cada noche a las 2:00 a.m. y normalmente tarda unos 20 minutos. Configuras el heartbeat con period = 24 horas y grace = 30 minutos. Si a las 2:50 a.m. no se ha recibido la señal, StatusInspector te avisa inmediatamente.

Los monitores Heartbeat están disponibles en los planes Pro y Enterprise.


Mantenimiento programado

Si tienes actualizaciones o cambios de infraestructura planificados, puedes activar una ventana de mantenimiento en el monitor. Durante ese periodo:

  • StatusInspector sigue ejecutando checks con normalidad.
  • Las alertas se suprimen para evitar ruido innecesario.
  • Los resultados quedan registrados en el historial para auditoría.

Cuando la ventana finaliza, el sistema retoma el envío de alertas automáticamente.