MC-LAG em roteadores Huawei: alta disponibilidade na camada de acesso para ISPs
Na maioria das redes ISP na América Latina, a camada de acesso continua sendo o elo mais fraco em termos de disponibilidade. Um equipamento de agregação com um único uplink para o core, ou um esquema de bonding sem redundância entre chassis, significa que uma falha de hardware pode deixar centenas ou milhares de assinantes sem serviço até o técnico chegar ao site.
MC-LAG —Multi-Chassis Link Aggregation Group— é a tecnologia que resolve esse problema, e os equipamentos Huawei a implementam de um modo que vale a pena entender em detalhe antes de desenhar ou revisar sua topologia de acesso.
Que problema o MC-LAG resolve?
O LAG convencional (IEEE 802.3ad / LACP) agrega múltiplas portas físicas do mesmo dispositivo em um único enlace lógico. Isso melhora a largura de banda e oferece certa redundância de porta, mas não protege contra a falha do chassis inteiro.
MC-LAG estende esse modelo entre dois chassis distintos: o dispositivo downstream (um switch de acesso, uma OLT, um CPE) vê um único LAG lógico, mas os membros desse LAG estão distribuídos entre dois equipamentos PE separados. Se um dos PE falhar, o outro mantém todas as portas do LAG ativas.
O resultado: redundância de chassis sem necessidade de Spanning Tree, sem tempos de convergência STP de 30–50 segundos, e com um modelo ativo-ativo que usa a capacidade dos dois equipamentos simultaneamente.
Componentes do MC-LAG na Huawei
A Huawei implementa MC-LAG usando duas tecnologias próprias:
Eth-Trunk: o mecanismo padrão de LAG na Huawei, equivalente a um port-channel na Cisco. Suporta três modos:
- Manual: as portas são agregadas sem protocolo de negociação.
- LACP (802.3ad): negociação padrão, mais robusta.
- LACP 1:1: um enlace ativo e um standby, para failover limpo.
E-Trunk: o componente proprietário que sincroniza o estado entre os dois chassis do MC-LAG. E-Trunk roda sobre UDP e mantém uma sessão de controle peer-to-peer entre os dois PE. Por meio dessa sessão, os dois equipamentos sincronizam o estado dos Eth-Trunk locais, as sessões BFD e as decisões de encaminhamento.
O enlace entre os dois PE que transporta E-Trunk chama-se Peer-Link. É crítico dimensioná-lo corretamente: todo o tráfego que normalmente seria enviado ao PE remoto atravessa esse enlace quando um dos chassis perde conectividade com o downstream.
Modelo de papéis: Master e Backup
Em um MC-LAG Huawei, um dos PE assume o papel de Master e o outro de Backup. O Master tem prioridade nas decisões de controle (LACP PDUs, BFD, etc.). O Backup segue as decisões do Master enquanto a sessão E-Trunk estiver ativa.
Se o Master falhar, o Backup assume automaticamente o controle. O tempo de switchover depende dos timers configurados em BFD e E-Trunk, e pode chegar a subsegundo em configurações otimizadas.
Configuração básica passo a passo
O exemplo a seguir mostra uma configuração MC-LAG entre dois roteadores Huawei PE (PE1 como Master, PE2 como Backup) com um switch de acesso downstream conectado a ambos.
1. Configurar o Peer-Link (enlace entre PE1 e PE2)
Em ambos os PE, criar um Eth-Trunk dedicado para o Peer-Link:
# PE1 y PE2
interface Eth-Trunk10
description PEER-LINK-MCLAG
mode lacp
trunkport GigabitEthernet 0/0/10
trunkport GigabitEthernet 0/0/11
2. Configurar E-Trunk no PE1 (Master)
e-trunk 1
peer-address 10.255.0.2 source-address 10.255.0.1
priority 100
preempt enable
peer-link Eth-Trunk10
3. Configurar E-Trunk no PE2 (Backup)
e-trunk 1
peer-address 10.255.0.1 source-address 10.255.0.2
priority 120
peer-link Eth-Trunk10
Nota: prioridade mais baixa = maior preferência de Master. PE1 com priority 100 vence frente a PE2 com priority 120.
4. Criar o Eth-Trunk do lado cliente em ambos os PE
# En PE1 y PE2 (mismo Eth-Trunk ID)
interface Eth-Trunk20
description ACCESO-SWITCH-A
mode lacp
e-trunk 1
5. Vincular as portas físicas ao Eth-Trunk em cada PE
# En PE1
interface GigabitEthernet 0/0/1
eth-trunk 20
# En PE2
interface GigabitEthernet 0/0/1
eth-trunk 20
O switch de acesso downstream vê um único LAG com LACP, sem saber que seus membros estão distribuídos entre dois chassis distintos.
Load balancing: qual hash usar
Por padrão, a Huawei usa um hash baseado em MAC source/destination. Para redes ISP com muito tráfego MPLS ou IP, é mais eficaz configurar o hash por campos IP ou por rótulos MPLS:
# Balanceo por IP source/destination (más efectivo en redes IP/MPLS)
interface Eth-Trunk20
load-balance src-dst-ip
Para tráfego MPLS com múltiplos fluxos, o hash por label inner (entropia de MPLS) evita a polarização:
interface Eth-Trunk20
load-balance mpls-label-outer
BFD para detecção rápida de falha
O tempo de convergência do MC-LAG depende em grande medida de quanto demora para detectar uma falha. Sem BFD, o LACP pode demorar até 90 segundos para determinar que um enlace perdeu seu peer. Com BFD:
# Habilitar BFD sobre el Eth-Trunk del lado cliente
interface Eth-Trunk20
bfd min-tx-interval 300 min-rx-interval 300 detect-multiplier 3
Com esses valores (300ms de intervalo, multiplicador 3), a detecção de falha ocorre em menos de 1 segundo.
Considerações para produção
VLAN e serviço: Todos os serviços (VPLS, L3VPN, acesso à internet) que passam pelo Eth-Trunk downstream devem estar configurados igualmente em ambos os PE. O E-Trunk não sincroniza a configuração de serviços automaticamente — essa responsabilidade é do operador (ou do sistema de gestão).
Peer-Link dimensionado: O Peer-Link deve ser capaz de absorver o tráfego normal de um dos PE em caso de failover. Uma regra prática é dimensioná-lo a 100% da capacidade do Eth-Trunk mais carregado do MC-LAG.
Logs e alarmes: Configurar traps SNMP para eventos de E-Trunk (mudança de papel Master/Backup, perda de peer-link) é crítico para detectar degradações antes que se tornem incidentes.
Versão de software: O comportamento de E-Trunk varia entre versões do VRP (Versatile Routing Platform). Validar a compatibilidade de versões entre PE1 e PE2 antes de colocar o MC-LAG em produção evita surpresas de interoperabilidade.
Quando MC-LAG compensa e quando não?
MC-LAG é a solução certa quando:
- Você tem switches de acesso ou OLTs conectados a um único equipamento de agregação e quer eliminar esse SPOF.
- Está construindo uma topologia ativo-ativo sem spanning tree na camada de distribuição.
- A janela de manutenção desse equipamento de acesso tem custo operacional alto (clientes afetados, intervenções noturnas).
MC-LAG pode ser excesso quando:
- O equipamento downstream já tem redundância própria (dual-homing a dois switches independentes com rotas distintas).
- O tráfego nesse segmento não justifica o overhead de configuração e monitoramento adicional.
- O orçamento não alcança dois PE do mesmo modelo/versão nesse site.
Nossa experiência em campo
Na Ayuda.LA implementamos MC-LAG em redes ISP com equipamentos Huawei das séries NE, CX e CE. O padrão mais comum que encontramos em redes que chegam a nós para auditoria: bons equipamentos, boa capacidade, mas topologia flat sem redundância de chassis na distribuição.
MC-LAG não exige hardware novo na maioria dos casos — exige reorganizar como os equipamentos existentes estão cabeados e configurar o E-Trunk. O ROI em termos de disponibilidade é imediato.
Conheça mais sobre nossos serviços de networking e suporte a ISPs.
Está auditando ou redesenhando sua camada de acesso?
Podemos revisar sua topologia atual e identificar os pontos de falha que mais impactam sua disponibilidade. Sem venda de hardware, sem conflito de interesse.
Tem perguntas específicas sobre MC-LAG ou alta disponibilidade na Huawei? Escreva para [email protected] — respondemos todas as mensagens.