MC-LAG en routers Huawei: alta disponibilidad en la capa de acceso para ISPs

MC-LAG en routers Huawei: alta disponibilidad en la capa de acceso para ISPs

En la mayoría de las redes ISP en Latinoamérica, la capa de acceso sigue siendo el eslabón más débil en términos de disponibilidad. Un equipo de agregación con un único uplink al core, o un esquema de bonding sin redundancia entre chasis, significa que un fallo de hardware puede dejar a cientos o miles de suscriptores sin servicio hasta que el técnico llegue al site.

MC-LAG —Multi-Chassis Link Aggregation Group— es la tecnología que resuelve ese problema, y los equipos Huawei la implementan de una manera que vale la pena entender en detalle antes de diseñar o revisar tu topología de acceso.


¿Qué problema resuelve MC-LAG?

El LAG convencional (IEEE 802.3ad / LACP) agrega múltiples puertos físicos de un mismo dispositivo en un único enlace lógico. Esto mejora el ancho de banda y da cierta redundancia de puerto, pero no protege contra la falla del chasis entero.

MC-LAG extiende ese modelo entre dos chasis distintos: el dispositivo downstream (un switch de acceso, un OLT, una CPE) ve un único LAG lógico, pero los miembros de ese LAG están distribuidos entre dos equipos PE separados. Si uno de los PE falla, el otro mantiene todos los puertos del LAG activos.

El resultado: redundancia de chasis sin necesidad de Spanning Tree, sin tiempos de convergencia STP de 30–50 segundos, y con un modelo activo-activo que usa la capacidad de ambos equipos simultáneamente.


Componentes del MC-LAG en Huawei

Huawei implementa MC-LAG usando dos tecnologías propias:

Eth-Trunk: el mecanismo estándar de LAG en Huawei, equivalente a un port-channel en Cisco. Soporta tres modos:

  • Manual: los puertos se agregan sin protocolo de negociación.
  • LACP (802.3ad): negociación estándar, más robusto.
  • LACP 1:1: un enlace activo y uno standby, para failover limpio.

E-Trunk: el componente propietario que sincroniza el estado entre los dos chasis del MC-LAG. E-Trunk corre sobre UDP y mantiene una sesión de control peer-to-peer entre los dos PE. A través de esta sesión, los dos equipos sincronizan el estado de los Eth-Trunk locales, los BFD sessions, y las decisiones de forwarding.

El enlace entre los dos PE que corre E-Trunk se llama Peer-Link. Es crítico dimensionarlo correctamente: todo el tráfico que normalmente se enviaría al PE remoto atraviesa este enlace cuando uno de los chasis pierde conectividad con el downstream.


Modelo de roles: Master y Backup

En un MC-LAG Huawei, uno de los PE asume el rol de Master y el otro de Backup. El Master tiene prioridad en las decisiones de control (LACP PDUs, BFD, etc.). El Backup sigue las decisiones del Master mientras la sesión E-Trunk esté activa.

Si el Master falla, el Backup asume automáticamente el control. El tiempo de switchover depende de los timers configurados en BFD y E-Trunk, y puede llegar a sub-segundo en configuraciones optimizadas.


Configuración básica paso a paso

El siguiente ejemplo muestra una configuración MC-LAG entre dos routers Huawei PE (PE1 como Master, PE2 como Backup) con un switch de acceso downstream conectado a ambos.

En ambos PE, crear un Eth-Trunk dedicado para el Peer-Link:

# PE1 y PE2
interface Eth-Trunk10
 description PEER-LINK-MCLAG
 mode lacp
 trunkport GigabitEthernet 0/0/10
 trunkport GigabitEthernet 0/0/11

2. Configurar E-Trunk en PE1 (Master)

e-trunk 1
 peer-address 10.255.0.2 source-address 10.255.0.1
 priority 100
 preempt enable
 peer-link Eth-Trunk10

3. Configurar E-Trunk en PE2 (Backup)

e-trunk 1
 peer-address 10.255.0.1 source-address 10.255.0.2
 priority 120
 peer-link Eth-Trunk10

Nota: prioridad más baja = mayor preferencia de Master. PE1 con priority 100 gana frente a PE2 con priority 120.

4. Crear el Eth-Trunk del lado cliente en ambos PE

# En PE1 y PE2 (mismo Eth-Trunk ID)
interface Eth-Trunk20
 description ACCESO-SWITCH-A
 mode lacp
 e-trunk 1

5. Vincular los puertos físicos al Eth-Trunk en cada PE

# En PE1
interface GigabitEthernet 0/0/1
 eth-trunk 20

# En PE2
interface GigabitEthernet 0/0/1
 eth-trunk 20

El switch de acceso downstream ve un único LAG con LACP, sin saber que sus miembros están distribuidos entre dos chasis distintos.


Load balancing: qué hash usar

Por defecto, Huawei usa un hash basado en MAC source/destination. Para redes ISP con mucho tráfico MPLS o IP, es más efectivo configurar el hash por campos IP o por etiquetas MPLS:

# Balanceo por IP source/destination (más efectivo en redes IP/MPLS)
interface Eth-Trunk20
 load-balance src-dst-ip

Para tráfico MPLS con múltiples flujos, el hash por label inner (entropía de MPLS) evita la polarización:

interface Eth-Trunk20
 load-balance mpls-label-outer

BFD para detección rápida de falla

El tiempo de convergencia de MC-LAG depende en gran medida de cuánto demora en detectarse una falla. Sin BFD, LACP puede demorar hasta 90 segundos en determinar que un enlace perdió su peer. Con BFD:

# Habilitar BFD sobre el Eth-Trunk del lado cliente
interface Eth-Trunk20
 bfd min-tx-interval 300 min-rx-interval 300 detect-multiplier 3

Con estos valores (300ms de intervalo, multiplicador 3), la detección de falla ocurre en menos de 1 segundo.


Consideraciones para producción

VLAN y servicio: Todos los servicios (VPLS, L3VPN, acceso a internet) que pasan por el Eth-Trunk downstream deben estar configurados igual en ambos PE. El E-Trunk no sincroniza la configuración de servicios automáticamente — esa responsibilidad es del operador (o del sistema de gestión).

Peer-Link dimensionado: El Peer-Link debe poder absorber el tráfico normal de uno de los PE en caso de failover. Una regla práctica es dimensionarlo al 100% de la capacidad del Eth-Trunk más cargado del MC-LAG.

Logs y alarmas: Configurar traps SNMP para eventos de E-Trunk (cambio de rol Master/Backup, pérdida de peer-link) es crítico para detectar degradaciones antes de que se conviertan en incidentes.

Versión de software: El comportamiento de E-Trunk varía entre versiones de VRP (Versatile Routing Platform). Validar la compatibilidad de versiones entre PE1 y PE2 antes de poner el MC-LAG en producción evita sorpresas de interoperabilidad.


¿Cuándo conviene MC-LAG y cuándo no?

MC-LAG es la solución correcta cuando:

  • Tenés switches de acceso o OLTs conectados a un único equipo de agregación y querés eliminar ese SPOF.
  • Estás construyendo una topología activo-activo sin spanning tree en la capa de distribución.
  • La ventana de mantenimiento de ese equipo de acceso tiene costo operativo alto (clientes afectados, intervenciones nocturnas).

MC-LAG puede ser overkill cuando:

  • El equipo downstream ya tiene su propia redundancia (dual-homing a dos switches independientes con rutas distintas).
  • El tráfico en ese segmento no justifica el overhead de configuración y monitoreo adicional.
  • El presupuesto no alcanza para tener dos PE del mismo modelo/versión en ese site.

Nuestra experiencia en campo

En Ayuda.LA hemos implementado MC-LAG en redes ISP con equipos Huawei NE, CX y CE series. El patrón más común que encontramos en redes que llegan a nosotros para auditoría: buenos equipos, buena capacidad, pero topología flat sin redundancia de chasis en la distribución.

MC-LAG no requiere hardware nuevo en la mayoría de los casos — requiere reordenar cómo están cableados los equipos existentes y configurar el E-Trunk. El ROI en términos de disponibilidad es inmediato.

Conocé más sobre nuestros servicios de networking y soporte a ISPs.


¿Estás auditando o rediseñando tu capa de acceso?

Podemos revisar tu topología actual e identificar los puntos de falla que más impactan en tu disponibilidad. Sin venta de hardware, sin conflicto de interés.

Hablemos →


¿Tenés preguntas específicas sobre MC-LAG o alta disponibilidad en Huawei? Escribinos a [email protected] — respondemos todos los mensajes.