vSAN ESA: O fim dos disk groups e a nova era de performance NVMe
Entenda a engenharia por trás da vSAN ESA: como a eliminação de disk groups e o novo Log-Structured File System entregam performance de RAID 1 com eficiência de RAID 6.
vSAN ESA: O fim dos disk groups e a nova era de performance NVMe
Durante a última década, assistimos a uma inversão completa na equação de performance do datacenter. Antigamente, a CPU passava a maior parte do tempo esperando o disco girar. Hoje, com a onipresença do NVMe, o hardware de armazenamento tornou-se tão rápido que o gargalo subiu a pilha: o problema passou a ser o software e a CPU.
A arquitetura original do vSAN (OSA - Original Storage Architecture) foi desenhada em uma época onde a latência de gravação era o inimigo número um, mitigada por uma camada de cache dedicada. Mas colocar um drive NVMe moderno atrás de uma arquitetura desenhada para SATA/SAS é como tentar encher uma piscina olímpica usando um canudo. A vSAN ESA (Express Storage Architecture) não é apenas uma atualização; é uma reescrita fundamental do caminho de dados para abraçar o paralelismo massivo do NVMe.
Resumo em 30 segundos
- Fim dos Disk Groups: A ESA elimina o conceito de grupos de discos e drives de cache dedicados, criando um pool único de armazenamento NVMe.
- RAID 6 com Performance de RAID 1: Graças a um novo sistema de arquivos (LFS), é possível usar Erasure Coding (RAID 5/6) sem a penalidade de escrita tradicional, economizando espaço sem sacrificar IOPS.
- Snapshots Nativos: O antigo modelo de cadeias de redo-logs foi substituído por um mecanismo de tabelas de busca, permitindo snapshots instantâneos com impacto zero na performance da VM.
O paradoxo do cache tier em hardware NVMe
Na arquitetura clássica (OSA), dependíamos do conceito de Disk Groups. Cada grupo tinha um disco de cache (Write Buffer/Read Cache) e vários discos de capacidade. Isso fazia sentido quando o disco de capacidade era um HDD lento ou um SSD SATA barato. O cache absorvia o impacto da escrita e destilava os dados para a capacidade posteriormente.
No entanto, em um mundo All-NVMe, esse modelo cria um gargalo de serialização. Dispositivos NVMe possuem até 64.000 filas de comando. A arquitetura de disk groups, por design, afunilava esse tráfego, forçando a CPU a gerenciar bloqueios (locks) e threads de forma ineficiente.
💡 Dica Pro: Se você está planejando um refresh de hardware para vSAN, pare de pensar em "proporção cache/capacidade". Na ESA, todo drive contribui para a performance e para a capacidade simultaneamente.
Figura: Comparação visual: O gargalo do Disk Group na OSA (esquerda) versus o paralelismo do Storage Pool na ESA (direita).
Como a ESA unifica tiers e paraleliza o caminho de dados
A ESA remove a construção lógica do disk group. Todos os dispositivos NVMe em um host são adicionados a um único Storage Pool. Isso simplifica drasticamente o gerenciamento — se um drive falha, você perde apenas aquele drive, não o grupo inteiro de discos.
Mas a mágica real acontece no vSAN LFS (Log-Structured File System). A ESA não grava os dados imediatamente em seu local final. Em vez disso:
Ingestão Rápida: Os dados entram em uma "perna de performance" (uma zona de buffer distribuída em todos os drives).
Coalescência: O sistema agrupa blocos de dados pequenos em grandes blocos (Full Stripes).
Gravação Eficiente: Esses stripes completos são gravados comprimidos e codificados (RAID 5/6) na área de capacidade.
Isso elimina o ciclo de "Read-Modify-Write" que historicamente tornava o RAID 5/6 lento para cargas de trabalho randômicas. O resultado é que você obtém a eficiência de espaço do RAID 6 (1.5x de overhead contra 2x do RAID 1) com a performance de escrita do RAID 1.
Erasure Coding e a eficiência de compressão
Um dos maiores custos em storage virtualizado é a redundância. No modelo antigo, para ter alta performance, usávamos RAID 1 (Espelhamento), o que dobrava o custo de armazenamento. O RAID 5 ou 6 economizava espaço, mas matava a performance de escrita.
A ESA muda esse jogo com a compressão adaptativa. Diferente da OSA, que comprimia apenas após destilar os dados do cache para a capacidade, a ESA comprime os dados antes de eles serem gravados na rede ou no disco.
⚠️ Perigo: A compressão na ESA é habilitada por padrão e altamente recomendada. Desativá-la pode, contra-intuitivamente, piorar a performance em alguns cenários, pois você estará enviando mais dados não comprimidos pela rede, saturando o link mais rápido.
Isso significa menos tráfego de rede e menos escritas no dispositivo NAND, aumentando a vida útil dos seus SSDs.
Figura: O fluxo de escrita otimizado da ESA: Compressão e Criptografia ocorrem no topo da pilha, reduzindo o tráfego de rede e a amplificação de escrita.
A revolução dos Snapshots Nativos
Se você administra VMware há algum tempo, provavelmente tem traumas de snapshots. Na arquitetura antiga (seja VMFS ou vSAN OSA), um snapshot criava um arquivo delta (redo-log). Quanto mais a VM escrevia, maior esse arquivo ficava. Deletar (consolidar) um snapshot grande exigia leitura e reescrita massiva de dados, muitas vezes "stunando" (congelando) a VM por segundos ou minutos.
A ESA introduz um mecanismo de snapshot escalável nativo. Não há mais cadeias de logs. O sistema usa uma estrutura de B-Trees (Árvores B) para gerenciar metadados.
Quando você tira um snapshot na ESA, o sistema apenas atualiza ponteiros na tabela de metadados. A consolidação é quase instantânea porque não envolve movimentação pesada de dados, apenas atualização de referências. Isso permite que ferramentas de backup (Veeam, Commvault, etc.) operem com janelas de backup muito mais agressivas sem impactar a produção.
Comparativo: vSAN OSA vs vSAN ESA
Para visualizar o salto tecnológico, preparei esta tabela comparativa focada nas diferenças arquiteturais críticas:
| Característica | vSAN OSA (Original) | vSAN ESA (Express) | Vantagem ESA |
|---|---|---|---|
| Estrutura de Disco | Disk Groups (Cache + Capacidade) | Storage Pool (Single Tier) | Elimina gargalos e desperdício de slots de cache. |
| Dispositivos Suportados | HDD, SSD SATA/SAS, NVMe | Apenas NVMe (TLC/QLC) | Paralelismo massivo e baixa latência. |
| RAID 5/6 (Erasure Coding) | Penalidade de performance significativa | Performance similar ao RAID 1 | Economia de espaço sem perda de velocidade. |
| Snapshots | Cadeia de Redo-Logs (SEsparse) | B-Tree Lookup (Nativo) | Consolidação até 100x mais rápida. |
| Caminho de Dados | Compressão pós-cache | Compressão pré-rede/escrita | Menor uso de CPU e largura de banda de rede. |
| Tamanho de Stripe | Fixo | Variável | Melhor adaptação a diferentes tamanhos de I/O. |
Requisitos de Rede e Hardware: O "Preço" da Inovação
A ESA não roda em qualquer hardware. A VMware (agora Broadcom) elevou a barra dos requisitos mínimos para garantir que a experiência seja consistente.
Você precisa de vSAN ReadyNodes certificados para ESA. Não tente montar um "whitebox" caseiro para produção com ESA. O requisito mais crítico, além dos drives NVMe, é a rede.
Enquanto a OSA podia sobreviver com 10GbE, a ESA exige 25GbE como base, sendo 100GbE o "sweet spot" recomendado. Por quê? Como a ESA removeu o gargalo do disco e da CPU (com o novo caminho de dados), a rede tornou-se o novo ponto de pressão. Se você tem drives capazes de entregar milhões de IOPS, um link de 10GbE saturará instantaneamente durante operações de resync ou vMotion.
Figura: A infraestrutura física necessária: Interfaces de rede de alta velocidade (25/100GbE) são vitais para alimentar a fome de dados dos drives NVMe na ESA.
O Veredito: Quando migrar?
A vSAN ESA não é o futuro; é o padrão atual para qualquer nova implantação que exija performance ou eficiência de armazenamento. Se você está renovando seu parque de servidores e tem orçamento para NVMe, não há razão técnica para permanecer na OSA. A economia de espaço obtida com o RAID 6 (Erasure Coding) muitas vezes compensa o custo superior dos drives NVMe em comparação aos SSDs SATA antigos, entregando uma performance exponencialmente maior.
No entanto, para ambientes legados, híbridos ou com restrições severas de rede (1GbE/10GbE), a OSA continuará sendo a escolha pragmática por algum tempo. A transição para ESA exige planejamento de infraestrutura física, não apenas uma atualização de licença.
Referências & Leitura Complementar
VMware vSAN Express Storage Architecture (ESA) Deep Dive – Documentação técnica detalhando o Log-Structured Filesystem.
Performance of vSAN ESA – Whitepaper da Broadcom analisando benchmarks de RAID-5/6 vs RAID-1.
vSAN ReadyNode Configurator – Ferramenta oficial para validar hardware compatível com ESA (HCL).
Perguntas Frequentes (FAQ)
A vSAN ESA exige hardware específico ou funciona em qualquer servidor?
A ESA é exigente. Ela requer "vSAN ReadyNodes" certificados especificamente para ESA. O requisito inegociável é o uso exclusivo de drives NVMe de alta resistência e interfaces de rede de 25GbE ou superior (sendo 100GbE o ideal) para suportar o paralelismo massivo e não criar gargalos na malha de rede.Como a ESA consegue performance de RAID 1 usando RAID 6?
O segredo é o Log-Structured File System (LFS). A ESA ingere as gravações muito rápido em uma zona de performance, agrupa esses dados e os grava como "stripes completos" na capacidade final. Isso elimina a penalidade de leitura-modificação-escrita (Read-Modify-Write) que tornava o RAID 5/6 lento no passado.O que acontece com os snapshots na vSAN ESA?
Esqueça os problemas de consolidação. A ESA abandonou o modelo antigo de cadeias de redo-logs (que degradavam a performance conforme cresciam) por um mecanismo nativo baseado em tabelas de busca (B-trees). O resultado são snapshots com impacto de performance virtualmente nulo e consolidação extremamente rápida.
Ricardo Garcia
Especialista em Virtualização (VMware/KVM)
"Vivo na camada entre o hypervisor e o disco. Ajudo administradores a entenderem como a performance do storage define a estabilidade de datastores, snapshots e migrações críticas."