El día que se cae el core: lo que todo ISP debería tener preparado
El core es el corazón del ISP
El core no es solo “un par de routers”. Es el punto donde confluyen:
- la red de acceso
- los enlaces de transporte
- los servicios críticos
- la salida a Internet
- los sistemas de autenticación y gestión
Cuando el core falla, todo falla.
Y si no hay un plan, la caída se transforma rápidamente en caos.
Lo que suele pasar cuando no hay preparación
Cuando el core se cae sin un plan previo, el escenario es casi siempre el mismo:
- nadie sabe exactamente qué falló
- se prueban cambios a ciegas
- se tocan configuraciones en producción
- no hay documentación actualizada
- los clientes llaman antes de que el NOC entienda qué pasa
El tiempo pasa, la presión aumenta y cada decisión mal tomada empeora el impacto.
La pregunta correcta no es “si”, sino “cuándo”
Muchos ISPs diseñan su red pensando en el funcionamiento normal, pero no en el día anómalo.
La pregunta correcta no es:
“¿Puede caerse el core?”
La pregunta real es:
“¿Qué pasa cuando se cae?”
Y la respuesta debería estar escrita, probada y conocida por el equipo.
Qué debería tener preparado todo ISP
1. Redundancia real, no teórica
No alcanza con tener dos equipos si:
- están en el mismo rack
- dependen del mismo switch
- usan la misma energía
- tienen la misma configuración sin validar
La redundancia debe ser eléctrica, física y lógica, y tiene que probarse.
2. Documentación clara y actualizada
En una emergencia no hay tiempo para “ver después”.
Debe existir documentación que responda rápido a:
- topología real del core
- roles de cada equipo
- dependencias críticas
- caminos de failover
- accesos de emergencia
Si la documentación vive solo en la cabeza de alguien, no es documentación.
3. Backups que funcionen (y se prueben)
No alcanza con “tener backups”.
Hay que saber:
- dónde están
- de qué fecha son
- cómo se restauran
- cuánto tiempo lleva volver a operar
Un backup que nunca se probó es solo una ilusión de seguridad.
4. Procedimientos de emergencia
Ante una caída grave, el equipo necesita respuestas claras:
- quién toma decisiones
- qué se toca y qué no
- en qué orden actuar
- cuándo escalar
- cuándo comunicar
Los procedimientos reducen errores y bajan el stress en momentos críticos.
5. Monitoreo y alertas útiles
El monitoreo no debe avisar cuando el cliente ya se quejó.
Debe:
- detectar degradaciones
- anticipar fallas
- mostrar impacto real
- permitir priorizar
Alertas mal diseñadas generan ruido y retrasan la reacción.
El peor momento para pensar es durante la caída
Muchos ISPs empiezan a diseñar su plan cuando el core ya está abajo.
Ese es el peor momento posible.
La preparación se hace en frío, con tiempo y criterio técnico.
La ejecución se hace en caliente, siguiendo lo planificado.
Caerse no es el problema
Todos los cores se caen alguna vez.
El problema es:
- no saber cómo volver
- tardar más de lo necesario
- aprender la lección demasiado tarde
Un ISP maduro no se mide por si se cae o no, sino por cómo responde cuando pasa.
Prepararse es una decisión estratégica
Invertir en preparación no es un gasto técnico, es una decisión de negocio:
- menos tiempo fuera de servicio
- menos clientes perdidos
- menos estrés operativo
- más confianza interna
En Ayuda.LA ayudamos a ISPs a prepararse antes del día crítico, no después.
Si hoy tu core funciona pero no tenés claro qué pasaría si se cae, ese día ya empezó a correr.
Hablemos antes.