vSAN ESA: O fim do trade-off entre RAID-1 e RAID-6

Durante a última década, arquitetar um cluster vSAN — ou qualquer solução de armazenamento definido por software (SDS) — envolvia uma escolha dolorosa. Você podia optar pelo RAID-1 (Espelhamento) para garantir a latência de sub-milissegundos que seus bancos de dados SQL exigiam, sacrificando 50% da capacidade bruta. Ou, você podia escolher RAID-5/6 (Erasure Coding) para maximizar o espaço em disco, aceitando a temida penalidade de escrita e latências imprevisíveis.

Era uma balança cruel: Performance versus Custo. Não havia meio-termo real, apenas compromissos aceitáveis.

Com a introdução da Express Storage Architecture (ESA) no vSphere 8, a VMware alterou fundamentalmente a física desse problema. Ao redesenhar a pilha de armazenamento para tirar proveito nativo do protocolo NVMe, o vSAN ESA promete entregar a eficiência de capacidade do RAID-6 com a performance do RAID-1. Mas como isso é possível sem violar as leis da termodinâmica do storage? Vamos abrir o capô dessa arquitetura.

Resumo em 30 segundos

O Fim do Cache Dedicado: O vSAN ESA elimina o conceito de "Disk Groups" com discos de cache e capacidade separados. Todos os dispositivos NVMe contribuem para performance e armazenamento.

Performance Leg: Todas as escritas entram inicialmente como um espelhamento (RAID-1) em uma zona de log persistente, garantindo latência mínima, antes de serem convertidas para RAID-5/6.

Sem Penalidade RMW: O novo Log-Structured File System (LFS) elimina a penalidade de "Read-Modify-Write" tradicional do Erasure Coding, permitindo o uso de RAID-6 para cargas de trabalho críticas.

O dilema histórico: A penalidade de escrita

Para entender a inovação, precisamos revisitar o problema. Em arquiteturas de storage tradicionais (e no vSAN OSA - Original Storage Architecture), o Erasure Coding (RAID-5/6) sofre de um fenômeno conhecido como Amplificação de Escrita ou penalidade RMW (Read-Modify-Write).

Quando uma VM precisa alterar um pequeno bloco de dados (digamos, 4KB) em um stripe RAID-5 existente, o sistema não pode simplesmente gravar o dado. Ele precisa:

Ler o dado antigo.
Ler a paridade antiga.
Calcular a nova paridade (CPU cycle).
Gravar o novo dado.
Gravar a nova paridade.

Isso transforma uma única operação de I/O da VM em quatro operações de I/O no disco (2 leituras + 2 escritas). Em um ambiente com milhares de VMs, isso destrói a performance de gravação aleatória. É por isso que, historicamente, sempre recomendamos RAID-1 para aplicações sensíveis à latência.

Figura: Comparativo visual: A complexidade da penalidade Read-Modify-Write (RMW) versus a ingestão simplificada do Log-Structured File System.

A arquitetura de camada única (Single Tier)

O vSAN ESA remove a distinção entre discos de cache e discos de capacidade. No modelo antigo (OSA), se o seu working set excedesse o tamanho do disco de cache (geralmente limitado a 600GB lógicos para escrita), a performance caía drasticamente, pois o sistema precisava destagear dados para discos de capacidade (frequentemente SATA/SAS SSDs ou HDDs) que eram mais lentos.

No ESA, todos os dispositivos devem ser NVMe. Isso permitiu que a VMware criasse um pool de armazenamento único. Cada dispositivo contribui tanto para a capacidade quanto para a performance. Não há mais gargalos artificiais onde um único disco de cache falho derruba um grupo de discos inteiro.

💡 Dica Pro: Ao projetar um cluster vSAN ESA, a HCL (Hardware Compatibility List) é muito mais restrita. Não tente reutilizar SSDs SATA antigos. O ESA exige dispositivos NVMe de classe "Mixed Use" ou "Read Intensive" de alta resistência, certificados especificamente para essa arquitetura.

O segredo: Log-Structured File System e a "Performance Leg"

Aqui reside a mágica que elimina o trade-off. O vSAN ESA utiliza um sistema de arquivos estruturado em log (LFS - Log-Structured File System) patenteado. O fluxo de escrita de uma VM ocorre da seguinte maneira:

Ingestão (Performance Leg): Quando a VM envia uma escrita, o vSAN ESA a grava imediatamente em uma área persistente de log. Crucialmente, essa escrita é feita usando RAID-1 (Espelhamento), independentemente da política de armazenamento definida para o objeto (RAID-5 ou 6).
Reconhecimento (Ack): Como a escrita foi persistida em espelho (rápido) em mídia NVMe, o storage envia o Acknowledgement para a VM instantaneamente. A latência percebida pela aplicação é a de um RAID-1 NVMe.
Coalescência e Compressão: Os dados ficam no log. O sistema então agrupa esses pequenos blocos de dados aleatórios em grandes blocos sequenciais (Full Stripes). A compressão ocorre neste estágio, antes de qualquer outra coisa, o que é muito mais eficiente do que a compressão pós-processo ou pós-cache.
Destage (Capacity Leg): O sistema pega esses "stripes completos" e os grava na área de capacidade final usando a política de Erasure Coding definida (RAID-5 ou RAID-6).

Por que isso muda o jogo?

Como o vSAN ESA escreve sempre "stripes completos" na camada de capacidade, ele elimina a necessidade de ler a paridade antiga. Ele simplesmente calcula a nova paridade em memória (que é barato) e grava o stripe inteiro de uma vez. A penalidade de Read-Modify-Write desaparece.

O resultado é que você obtém a eficiência de espaço do RAID-6 (apenas ~1.5x de overhead contra 2x do RAID-1) com a performance de escrita do RAID-1.

Figura: O fluxo de escrita do vSAN ESA: Da ingestão em espelho (Performance Leg) até a consolidação e gravação eficiente em Erasure Coding (Capacity Leg).

RAID-5 Adaptativo: Inteligência de Cluster

Outra dor de cabeça do Erasure Coding antigo era a rigidez dos requisitos de hosts. Para fazer RAID-5, você precisava de 4 hosts (3+1). Para RAID-6, 6 hosts (4+2). Se um host falhasse e você caísse abaixo do mínimo, a conformidade da política quebrava.

O vSAN ESA introduz o RAID-5 Adaptativo. O sistema verifica o tamanho do cluster e ajusta o esquema de codificação:

Clusters de 3 a 5 Hosts: Usa um esquema 2+1 (2 dados, 1 paridade). Isso economiza espaço comparado ao RAID-1, mas requer menos hosts.
Clusters de 6+ Hosts: Usa automaticamente um esquema 4+1. Isso oferece melhor eficiência de capacidade.

Se você tem 6 hosts e um falha (ou entra em manutenção), o vSAN ESA pode tentar manter o esquema 4+1 se houver domínios de falha suficientes, ou adaptar-se. O ponto chave é que o administrador define "RAID-5" na política (SPBM), e o vSAN decide a melhor implementação matemática baseada na contagem de nós disponíveis.

Tabela Comparativa: OSA vs. ESA

Característica	vSAN OSA (Original)	vSAN ESA (Express)
Arquitetura de Disco	2 Camadas (Cache + Capacidade)	1 Camada (Pool NVMe Otimizado)
Dispositivos Suportados	HDD, SSD SATA/SAS, NVMe	Apenas NVMe
Penalidade RAID-5/6	Alta (Read-Modify-Write)	Nula (Log-Structured Write)
Compressão	Pós-cache (Impacto na CPU)	Nativa/Por padrão (Alta eficiência)
Snapshots	Cadeia de redo logs (Lento)	Nativo (LFS) (Instantâneo e sem impacto)
Overhead de CPU	Alto (Software Checksum/Dedup)	Baixo (Otimizado para instruções modernas)

Impacto na Rede e Requisitos

Não existe almoço grátis. Para entregar essa performance massiva e mover dados rapidamente entre a "Performance Leg" e a "Capacity Leg" através dos hosts, o vSAN ESA exige uma rodovia de dados robusta.

O requisito mínimo absoluto é 25 GbE, mas para ambientes de alta densidade, 100 GbE é fortemente recomendado. Com o protocolo RDMA (RoCE v2) sendo opcional mas benéfico, a latência de rede torna-se o novo gargalo potencial se não for dimensionada corretamente.

⚠️ Perigo: Não tente rodar vSAN ESA em redes de 10 GbE. A latência de rebalanceamento e a ingestão de dados saturarão o link, causando contrapressão (backpressure) nas VMs, resultando em latência alta na aplicação.

Figura: A infraestrutura física necessária: Redes de 25GbE ou 100GbE são as artérias vitais que permitem ao vSAN ESA processar o fluxo massivo de dados NVMe.

O Veredito do Datacenter

O vSAN ESA não é apenas uma atualização incremental; é uma reescrita necessária para a era do NVMe. Para o administrador de virtualização, isso significa simplificação operacional. A necessidade de criar silos de armazenamento (Datastores Flash para DBs, Datastores Híbridos para File Server) acabou.

A recomendação para novos deployments é clara: se o orçamento permitir hardware NVMe certificado e rede 25GbE+, o vSAN ESA com RAID-6 (ou RAID-5) deve ser o padrão. Você obtém a resiliência de falha dupla, a eficiência de capacidade máxima e a performance que seus usuários exigem, sem precisar microgerenciar a colocação de VMs. O trade-off morreu; viva a nova arquitetura.

Referências & Leitura Complementar

VMware vSAN 8 Express Storage Architecture (ESA) Deep Dive – Technical Whitepaper (2023). Detalha o funcionamento do LFS e path de dados.
Performance of vSAN ESA – VMware Tech Zone. Análises comparativas de IOPS entre OSA e ESA.
NVMe Specification 2.0 – NVM Express Inc. Padrões de interface para SSDs utilizados como base para o design do ESA.

Perguntas Frequentes (FAQ)

O que é o RAID-5 Adaptativo no vSAN ESA?

É um mecanismo inteligente que ajusta automaticamente o esquema de Erasure Coding baseando-se no tamanho do cluster. Clusters menores (3 a 5 hosts) utilizam um esquema 2+1 (RAID-5 otimizado), enquanto clusters com 6 ou mais hosts adotam o esquema 4+1. Isso otimiza a eficiência de espaço sem que o administrador precise reconfigurar políticas manualmente ao expandir o cluster.

Por que o vSAN ESA não precisa de discos de cache dedicados?

Diferente da arquitetura original (OSA), que dependia de uma hierarquia rígida de cache e capacidade, o ESA utiliza uma arquitetura de camada única (Single Tier). Todos os dispositivos NVMe contribuem tanto para capacidade quanto para performance. O gerenciamento inteligente é feito por um Log-Structured File System (LFS) que trata a ingestão e persistência dos dados de forma dinâmica.

O Erasure Coding no vSAN ESA afeta a latência das VMs?

Na prática, não. Graças ao LFS e à "Performance Leg", as escritas são absorvidas inicialmente com a velocidade de um espelhamento (RAID-1). O sistema apenas envia o reconhecimento (ACK) para a VM após essa gravação rápida. Posteriormente, os dados são agrupados e destageados como stripes completos para a camada de capacidade (RAID-5/6), eliminando a penalidade de escrita tradicional.