Como o Ultra Ethernet Consortium planeja desbancar o InfiniBand nos datacenters

      Mariana Costa 7 min de leitura
      Como o Ultra Ethernet Consortium planeja desbancar o InfiniBand nos datacenters

      O Ultra Ethernet Consortium (UEC) promete revolucionar a infraestrutura de IA e storage. Entenda como gigantes da tecnologia querem superar o InfiniBand com um novo padrão de rede aberto e de altíssimo desempenho.

      Compartilhar:

      A inteligência artificial tem um apetite insaciável por dados. Quando você empilha milhares de GPUs em um datacenter, o verdadeiro gargalo não é o processamento, mas a velocidade com que a infraestrutura de storage consegue alimentar esses chips. Atualmente, a rede que conecta os arrays de armazenamento NVMe aos clusters de IA é dominada por um padrão proprietário e caro. O Ultra Ethernet Consortium (UEC) nasceu exatamente para quebrar esse monopólio.

      Apoiado por gigantes da infraestrutura, o consórcio quer transformar o bom e velho padrão Ethernet na espinha dorsal dos datacenters modernos. O objetivo é criar uma via expressa de dados capaz de suportar o tráfego massivo de leitura e gravação exigido pelo treinamento de modelos de linguagem, sem os custos astronômicos das redes fechadas.

      Resumo em 30 segundos

      • O InfiniBand domina as redes de backend para storage e IA, mas cria dependência de um único fornecedor.
      • O UEC é uma aliança aberta que modifica a camada de transporte do Ethernet para lidar com cargas extremas.
      • A nova especificação otimiza o NVMe-oF, eliminando a perda de pacotes e reduzindo a latência na entrega de dados dos SSDs para as GPUs.

      O peso das gigantes e a ameaça ao monopólio de rede

      Para entender a guerra nos bastidores dos datacenters, precisamos olhar para quem controla a infraestrutura. A Nvidia domina o mercado de GPUs e, ao adquirir a Mellanox no passado, passou a dominar também o InfiniBand. Essa tecnologia de rede de altíssima performance e baixa latência tornou-se o padrão de fato para conectar servidores de IA aos sistemas de storage de alto desempenho.

      No entanto, a indústria de tecnologia odeia monopólios. Empresas como Intel, AMD, Broadcom, Microsoft e Meta se uniram sob o guarda-chuva da Linux Foundation para criar o UEC. A proposta é clara: oferecer uma alternativa de código aberto baseada em Ethernet que entregue a mesma performance do InfiniBand para cargas de trabalho de computação de alto desempenho (HPC) e inteligência artificial.

      💡 Dica Pro: Para arquitetos de infraestrutura, a adoção do UEC significa poder misturar switches, placas de rede (NICs) e storages de diferentes fabricantes sem perder performance, fugindo do temido "vendor lock-in".

      Por que o Ethernet tradicional e o RoCE falham com a inteligência artificial

      O Ethernet que usamos hoje foi desenhado para redes de propósito geral. Ele é excelente para a internet, mas sofre quando precisa lidar com o tráfego "em rajadas" (bursty) gerado por milhares de GPUs acessando petabytes de dados simultaneamente.

      Até agora, a solução da indústria para usar Ethernet em storage de alta performance era o RoCE (RDMA over Converged Ethernet). O RDMA permite que um servidor acesse a memória de outro diretamente, ignorando o sistema operacional. O problema é que o RoCE exige redes sem perdas (lossless). Se houver congestionamento e um pacote de dados for descartado, a rede inteira pausa para retransmitir a informação.

      Representação visual de como o Ultra Ethernet resolve o congestionamento de pacotes entre o storage e as GPUs em comparação ao Ethernet tradicional. Figura: Representação visual de como o Ultra Ethernet resolve o congestionamento de pacotes entre o storage e as GPUs em comparação ao Ethernet tradicional.

      Esse comportamento cria o que os engenheiros chamam de "latência de cauda" (tail latency). Em um cluster de IA, o processamento de uma etapa só avança quando a última GPU recebe seus dados do storage. Se uma única conexão atrasar devido a pacotes perdidos, todo o cluster de milhões de dólares fica ocioso esperando.

      InfiniBand contra Ultra Ethernet na infraestrutura de storage

      Para situar o impacto dessa mudança na arquitetura de servidores e armazenamento, é fundamental entender as diferenças arquitetônicas entre os dois padrões.

      Característica InfiniBand Ultra Ethernet (UEC)
      Natureza do ecossistema Proprietário (fortemente dominado pela Nvidia) Padrão aberto (apoiado por múltiplos fabricantes)
      Custo de implementação Altíssimo (exige switches e cabos específicos) Moderado a baixo (aproveita a economia de escala do Ethernet)
      Entrega de pacotes Em ordem estrita (pode causar gargalos) Fora de ordem (remontado no destino, altamente eficiente)
      Foco em Storage (NVMe-oF) Excelente, mas isolado em ilhas de rede Nativo e integrado com a rede principal do datacenter
      Tolerância a falhas Requer reconfiguração pesada da rede Multipathing dinâmico e pulverização de pacotes

      O impacto direto nos arrays all-flash e NVMe-oF

      A verdadeira revolução do UEC para o mundo do armazenamento de dados está na forma como ele lida com o NVMe-oF (NVMe over Fabrics). Esse protocolo permite que servidores acessem SSDs NVMe remotos pela rede como se estivessem conectados diretamente à placa-mãe.

      O UEC introduz um conceito chamado "pulverização de pacotes" (packet spraying). Em vez de enviar um grande bloco de dados do storage para a GPU por um único caminho de rede, o UEC quebra esses dados e os envia simultaneamente por todos os caminhos disponíveis nos switches.

      ⚠️ Perigo: Usar redes Ethernet tradicionais para clusters de IA massivos pode resultar em até 30% de degradação de performance apenas por conta de gargalos de rede e retransmissão de pacotes do storage.

      Os pacotes chegam ao destino fora de ordem, mas a placa de rede inteligente (SmartNIC ou DPU) do servidor receptor remonta tudo instantaneamente antes de entregar à memória da GPU. Isso elimina o congestionamento, maximiza o uso da banda dos arrays all-flash e garante que os discos operem em sua capacidade máxima de IOPS (operações de entrada e saída por segundo).

      O que muda na arquitetura com a especificação atual

      Com a chegada das primeiras especificações do UEC, os administradores de datacenter não precisarão arrancar seus cabos de fibra óptica atuais. A inovação do Ultra Ethernet atua principalmente na camada de transporte (Layer 4 do modelo OSI), substituindo protocolos antigos por mecanismos modernos de controle de congestionamento baseados em telemetria rápida.

      Isso significa que os futuros arrays de storage enterprise já virão equipados com portas UEC nativas. A infraestrutura de hipervisores e sistemas de arquivos distribuídos (como DAOS ou sistemas baseados em ZFS para enterprise) poderá escalar horizontalmente com muito mais facilidade. A rede deixará de ser o fator limitante para a expansão da capacidade de armazenamento.

      Previsão para o futuro dos datacenters

      A transição não acontecerá da noite para o dia. O InfiniBand continuará sendo o rei absoluto nos clusters de IA de ponta a curto prazo devido à sua maturidade. No entanto, a força gravitacional de um padrão aberto é implacável. À medida que os primeiros switches e placas de rede UEC chegarem ao mercado corporativo, veremos uma rápida migração. Em poucos anos, a separação entre a "rede de dados geral" e a "rede de storage de alta performance" vai desaparecer, unificando todo o datacenter sob o protocolo Ethernet otimizado.

      O que é o Ultra Ethernet Consortium (UEC)? É uma iniciativa da Linux Foundation, apoiada por empresas como Intel, AMD, Broadcom e Microsoft, focada em otimizar a tecnologia Ethernet para cargas de trabalho extremas de Inteligência Artificial e computação de alto desempenho (HPC).
      Qual a diferença entre Ultra Ethernet e InfiniBand? Enquanto o InfiniBand é uma rede proprietária de altíssimo desempenho e custo elevado, amplamente dominada por poucos fornecedores, o Ultra Ethernet busca oferecer performance equivalente ou superior usando um ecossistema aberto e padronizado, facilitando a integração com infraestruturas de servidores e storages existentes.
      Como o UEC afeta o armazenamento de dados (storage)? O UEC melhora drasticamente o transporte de dados via NVMe-oF (NVMe over Fabrics), reduzindo a latência de cauda e evitando o descarte de pacotes. Isso permite que os arrays de storage all-flash alimentem clusters de GPUs com muito mais eficiência e sem gargalos de rede.
      #Ultra Ethernet Consortium #InfiniBand #Redes para IA #NVMe-oF #Infraestrutura de datacenter #RoCE #Storage de alta performance
      Mariana Costa
      Assinatura Técnica

      Mariana Costa

      Repórter de Tecnologia (Newsroom)

      "Cubro o universo de TI corporativa com agilidade jornalística. Minha missão é traduzir o 'tech-speak' de datacenters e cloud em notícias diretas para sua tomada de decisão."