vSAN ESA: O fim do trade-off entre RAID-1 e RAID-6
Descubra como a arquitetura vSAN ESA entrega a performance de espelhamento (RAID-1) com a eficiência de capacidade do Erasure Coding, eliminando a penalidade de escrita tradicional.
Durante a última década, arquitetar um cluster vSAN — ou qualquer solução de armazenamento definido por software (SDS) — envolvia uma escolha dolorosa. Você podia optar pelo RAID-1 (Espelhamento) para garantir a latência de sub-milissegundos que seus bancos de dados SQL exigiam, sacrificando 50% da capacidade bruta. Ou, você podia escolher RAID-5/6 (Erasure Coding) para maximizar o espaço em disco, aceitando a temida penalidade de escrita e latências imprevisíveis.
Era uma balança cruel: Performance versus Custo. Não havia meio-termo real, apenas compromissos aceitáveis.
Com a introdução da Express Storage Architecture (ESA) no vSphere 8, a VMware alterou fundamentalmente a física desse problema. Ao redesenhar a pilha de armazenamento para tirar proveito nativo do protocolo NVMe, o vSAN ESA promete entregar a eficiência de capacidade do RAID-6 com a performance do RAID-1. Mas como isso é possível sem violar as leis da termodinâmica do storage? Vamos abrir o capô dessa arquitetura.
Resumo em 30 segundos
- O Fim do Cache Dedicado: O vSAN ESA elimina o conceito de "Disk Groups" com discos de cache e capacidade separados. Todos os dispositivos NVMe contribuem para performance e armazenamento.
- Performance Leg: Todas as escritas entram inicialmente como um espelhamento (RAID-1) em uma zona de log persistente, garantindo latência mínima, antes de serem convertidas para RAID-5/6.
- Sem Penalidade RMW: O novo Log-Structured File System (LFS) elimina a penalidade de "Read-Modify-Write" tradicional do Erasure Coding, permitindo o uso de RAID-6 para cargas de trabalho críticas.
O dilema histórico: A penalidade de escrita
Para entender a inovação, precisamos revisitar o problema. Em arquiteturas de storage tradicionais (e no vSAN OSA - Original Storage Architecture), o Erasure Coding (RAID-5/6) sofre de um fenômeno conhecido como Amplificação de Escrita ou penalidade RMW (Read-Modify-Write).
Quando uma VM precisa alterar um pequeno bloco de dados (digamos, 4KB) em um stripe RAID-5 existente, o sistema não pode simplesmente gravar o dado. Ele precisa:
Ler o dado antigo.
Ler a paridade antiga.
Calcular a nova paridade (CPU cycle).
Gravar o novo dado.
Gravar a nova paridade.
Isso transforma uma única operação de I/O da VM em quatro operações de I/O no disco (2 leituras + 2 escritas). Em um ambiente com milhares de VMs, isso destrói a performance de gravação aleatória. É por isso que, historicamente, sempre recomendamos RAID-1 para aplicações sensíveis à latência.
Figura: Comparativo visual: A complexidade da penalidade Read-Modify-Write (RMW) versus a ingestão simplificada do Log-Structured File System.
A arquitetura de camada única (Single Tier)
O vSAN ESA remove a distinção entre discos de cache e discos de capacidade. No modelo antigo (OSA), se o seu working set excedesse o tamanho do disco de cache (geralmente limitado a 600GB lógicos para escrita), a performance caía drasticamente, pois o sistema precisava destagear dados para discos de capacidade (frequentemente SATA/SAS SSDs ou HDDs) que eram mais lentos.
No ESA, todos os dispositivos devem ser NVMe. Isso permitiu que a VMware criasse um pool de armazenamento único. Cada dispositivo contribui tanto para a capacidade quanto para a performance. Não há mais gargalos artificiais onde um único disco de cache falho derruba um grupo de discos inteiro.
💡 Dica Pro: Ao projetar um cluster vSAN ESA, a HCL (Hardware Compatibility List) é muito mais restrita. Não tente reutilizar SSDs SATA antigos. O ESA exige dispositivos NVMe de classe "Mixed Use" ou "Read Intensive" de alta resistência, certificados especificamente para essa arquitetura.
O segredo: Log-Structured File System e a "Performance Leg"
Aqui reside a mágica que elimina o trade-off. O vSAN ESA utiliza um sistema de arquivos estruturado em log (LFS - Log-Structured File System) patenteado. O fluxo de escrita de uma VM ocorre da seguinte maneira:
Ingestão (Performance Leg): Quando a VM envia uma escrita, o vSAN ESA a grava imediatamente em uma área persistente de log. Crucialmente, essa escrita é feita usando RAID-1 (Espelhamento), independentemente da política de armazenamento definida para o objeto (RAID-5 ou 6).
Reconhecimento (Ack): Como a escrita foi persistida em espelho (rápido) em mídia NVMe, o storage envia o Acknowledgement para a VM instantaneamente. A latência percebida pela aplicação é a de um RAID-1 NVMe.
Coalescência e Compressão: Os dados ficam no log. O sistema então agrupa esses pequenos blocos de dados aleatórios em grandes blocos sequenciais (Full Stripes). A compressão ocorre neste estágio, antes de qualquer outra coisa, o que é muito mais eficiente do que a compressão pós-processo ou pós-cache.
Destage (Capacity Leg): O sistema pega esses "stripes completos" e os grava na área de capacidade final usando a política de Erasure Coding definida (RAID-5 ou RAID-6).
Por que isso muda o jogo?
Como o vSAN ESA escreve sempre "stripes completos" na camada de capacidade, ele elimina a necessidade de ler a paridade antiga. Ele simplesmente calcula a nova paridade em memória (que é barato) e grava o stripe inteiro de uma vez. A penalidade de Read-Modify-Write desaparece.
O resultado é que você obtém a eficiência de espaço do RAID-6 (apenas ~1.5x de overhead contra 2x do RAID-1) com a performance de escrita do RAID-1.
Figura: O fluxo de escrita do vSAN ESA: Da ingestão em espelho (Performance Leg) até a consolidação e gravação eficiente em Erasure Coding (Capacity Leg).
RAID-5 Adaptativo: Inteligência de Cluster
Outra dor de cabeça do Erasure Coding antigo era a rigidez dos requisitos de hosts. Para fazer RAID-5, você precisava de 4 hosts (3+1). Para RAID-6, 6 hosts (4+2). Se um host falhasse e você caísse abaixo do mínimo, a conformidade da política quebrava.
O vSAN ESA introduz o RAID-5 Adaptativo. O sistema verifica o tamanho do cluster e ajusta o esquema de codificação:
Clusters de 3 a 5 Hosts: Usa um esquema 2+1 (2 dados, 1 paridade). Isso economiza espaço comparado ao RAID-1, mas requer menos hosts.
Clusters de 6+ Hosts: Usa automaticamente um esquema 4+1. Isso oferece melhor eficiência de capacidade.
Se você tem 6 hosts e um falha (ou entra em manutenção), o vSAN ESA pode tentar manter o esquema 4+1 se houver domínios de falha suficientes, ou adaptar-se. O ponto chave é que o administrador define "RAID-5" na política (SPBM), e o vSAN decide a melhor implementação matemática baseada na contagem de nós disponíveis.
Tabela Comparativa: OSA vs. ESA
| Característica | vSAN OSA (Original) | vSAN ESA (Express) |
|---|---|---|
| Arquitetura de Disco | 2 Camadas (Cache + Capacidade) | 1 Camada (Pool NVMe Otimizado) |
| Dispositivos Suportados | HDD, SSD SATA/SAS, NVMe | Apenas NVMe |
| Penalidade RAID-5/6 | Alta (Read-Modify-Write) | Nula (Log-Structured Write) |
| Compressão | Pós-cache (Impacto na CPU) | Nativa/Por padrão (Alta eficiência) |
| Snapshots | Cadeia de redo logs (Lento) | Nativo (LFS) (Instantâneo e sem impacto) |
| Overhead de CPU | Alto (Software Checksum/Dedup) | Baixo (Otimizado para instruções modernas) |
Impacto na Rede e Requisitos
Não existe almoço grátis. Para entregar essa performance massiva e mover dados rapidamente entre a "Performance Leg" e a "Capacity Leg" através dos hosts, o vSAN ESA exige uma rodovia de dados robusta.
O requisito mínimo absoluto é 25 GbE, mas para ambientes de alta densidade, 100 GbE é fortemente recomendado. Com o protocolo RDMA (RoCE v2) sendo opcional mas benéfico, a latência de rede torna-se o novo gargalo potencial se não for dimensionada corretamente.
⚠️ Perigo: Não tente rodar vSAN ESA em redes de 10 GbE. A latência de rebalanceamento e a ingestão de dados saturarão o link, causando contrapressão (backpressure) nas VMs, resultando em latência alta na aplicação.
Figura: A infraestrutura física necessária: Redes de 25GbE ou 100GbE são as artérias vitais que permitem ao vSAN ESA processar o fluxo massivo de dados NVMe.
O Veredito do Datacenter
O vSAN ESA não é apenas uma atualização incremental; é uma reescrita necessária para a era do NVMe. Para o administrador de virtualização, isso significa simplificação operacional. A necessidade de criar silos de armazenamento (Datastores Flash para DBs, Datastores Híbridos para File Server) acabou.
A recomendação para novos deployments é clara: se o orçamento permitir hardware NVMe certificado e rede 25GbE+, o vSAN ESA com RAID-6 (ou RAID-5) deve ser o padrão. Você obtém a resiliência de falha dupla, a eficiência de capacidade máxima e a performance que seus usuários exigem, sem precisar microgerenciar a colocação de VMs. O trade-off morreu; viva a nova arquitetura.
Referências & Leitura Complementar
VMware vSAN 8 Express Storage Architecture (ESA) Deep Dive – Technical Whitepaper (2023). Detalha o funcionamento do LFS e path de dados.
Performance of vSAN ESA – VMware Tech Zone. Análises comparativas de IOPS entre OSA e ESA.
NVMe Specification 2.0 – NVM Express Inc. Padrões de interface para SSDs utilizados como base para o design do ESA.
Perguntas Frequentes (FAQ)
O que é o RAID-5 Adaptativo no vSAN ESA?
É um mecanismo inteligente que ajusta automaticamente o esquema de Erasure Coding baseando-se no tamanho do cluster. Clusters menores (3 a 5 hosts) utilizam um esquema 2+1 (RAID-5 otimizado), enquanto clusters com 6 ou mais hosts adotam o esquema 4+1. Isso otimiza a eficiência de espaço sem que o administrador precise reconfigurar políticas manualmente ao expandir o cluster.Por que o vSAN ESA não precisa de discos de cache dedicados?
Diferente da arquitetura original (OSA), que dependia de uma hierarquia rígida de cache e capacidade, o ESA utiliza uma arquitetura de camada única (Single Tier). Todos os dispositivos NVMe contribuem tanto para capacidade quanto para performance. O gerenciamento inteligente é feito por um Log-Structured File System (LFS) que trata a ingestão e persistência dos dados de forma dinâmica.O Erasure Coding no vSAN ESA afeta a latência das VMs?
Na prática, não. Graças ao LFS e à "Performance Leg", as escritas são absorvidas inicialmente com a velocidade de um espelhamento (RAID-1). O sistema apenas envia o reconhecimento (ACK) para a VM após essa gravação rápida. Posteriormente, os dados são agrupados e destageados como stripes completos para a camada de capacidade (RAID-5/6), eliminando a penalidade de escrita tradicional.
Ricardo Garcia
Especialista em Virtualização (VMware/KVM)
"Vivo na camada entre o hypervisor e o disco. Ajudo administradores a entenderem como a performance do storage define a estabilidade de datastores, snapshots e migrações críticas."