Saltar al contenido principal

Validación multi-región

StatusInspector ejecuta cada check desde múltiples probes en distintas regiones geográficas. El hub analiza los resultados de todos ellos antes de declarar que un servicio está caído, evitando alertas falsas causadas por problemas de red local o interferencias puntuales.


¿Por qué importa la validación multi-región?

Un check fallido desde una sola ubicación puede tener muchas causas que no son culpa de tu servicio:

  • El probe regional tiene un problema de red local.
  • La ruta de red entre el probe y tu servidor está congestionada.
  • Un DNS regional está mal configurado temporalmente.
  • Un corte de ISP afecta solo a esa región.

Si una sola falla bastara para declarar DOWN, recibirías alertas constantemente por problemas que no afectan a tus usuarios reales.


Probes por plan

El número de probes que participan en cada check depende de tu plan:

PlanProbes por check
Gratuito1
Pro3
Enterprise5

Con un solo probe (plan Gratuito), el resultado de ese probe es el resultado del check — no hay consenso que aplicar. A partir del plan Pro, varios probes en diferentes regiones votan de forma independiente y el hub decide en base a la mayoría.


Ventana de medición (mismo intervalo)

En planes con varios probes, cada intervalo de chequeo abre una ventana de medición en el hub. Todos los probes que participan en ese intervalo envían su resultado dentro de la misma ventana, no en ciclos sueltos que se pisan entre sí.

  • La ventana permanece abierta hasta que llegan todos los votos esperados (según tu plan) o hasta un tiempo máximo de espera configurado en el sistema (por defecto unos 30 segundos en monitores de 60 s de intervalo, siempre acotado al intervalo del monitor).
  • Si un probe tarda más que ese tiempo o no responde, la ventana se cierra igualmente y el hub decide con los votos disponibles (puede quedar Sin confirmar si no hay mayoría — ver más abajo).

Cómo funciona el consenso

Cuando varios probes ejecutan el mismo monitor:

  1. Cada probe obtiene permiso para ese intervalo, ejecuta el check y envía su resultado al hub (UP, DOWN o DEGRADED).
  2. El hub espera a cerrar la ventana (todos los votos o tiempo máximo) antes de calcular el resultado agregado.
  3. Aplica la regla de consenso: si una mayoría de probes coinciden en DOWN, el estado agregado pasa a DOWN.
  4. Solo entonces se abre un incidente y se envían alertas (no tras el primer probe que reporta).
Probe Región A → DOWN
Probe Región B → DOWN → Consenso: DOWN → Incidente + Alerta
Probe Región C → DOWN

Probe Región A → DOWN
Probe Región B → UP → Consenso: sin mayoría → No se abre incidente
Probe Región C → UP

Recuperación con histéresis

Para evitar que un monitor oscile entre DOWN y UP rápidamente, el sistema requiere al menos 2 checks consecutivos con resultado UP antes de cerrar el incidente y enviar la alerta de recuperación.

Esto significa que si un servicio se recupera brevemente durante una caída, no recibirás una alerta de DOWN seguida inmediatamente de una de recuperación.


DEGRADED y consenso

El estado DEGRADED también pasa por el motor de consenso. El hub requiere que varios probes detecten degradación de forma consistente antes de marcar el monitor como DEGRADED — si los resultados son contradictorios entre regiones, el monitor puede conservar su estado anterior hasta que haya evidencia suficiente y estable.


Medición parcial (Sin confirmar)

Si al cerrar la ventana del intervalo aún no hay quorum (por ejemplo, solo respondió un probe y hacen falta dos acuerdos, o faltó un probe por caída o retraso), el panel puede mostrar ese intervalo en gris como Sin confirmar. Eso no es Degradado: no implica que tu servicio vaya mal, solo que la medición regional no se completó a tiempo con suficientes regiones.

El estado agregado del monitor y las alertas de caída/recuperación no cambian por un intervalo Sin confirmar. Detalle: Medición parcial — Sin confirmar.


Monitores Heartbeat

Los monitores Heartbeat no usan probes ni consenso regional: el fallo se determina solo por el silencio (ausencia de ping dentro del periodo + grace). Por eso no aplica la validación multi-región para este tipo de monitor.


Relacionado