Armazenamento em 2025: O Que Realmente Mudou (Além do Marketing de IA)
Esqueça o hype de 'Storage para IA'. Um Sysadmin veterano analisa as mudanças reais: NVMe acessível, o perigo do QLC e a volta do On-Premise.
Se eu ganhasse um centavo para cada vez que um vendedor de hardware tentou me convencer este ano de que um array de discos precisa de uma "Unidade de Processamento Neural" para gravar zeros e uns, eu já teria me aposentado em uma ilha sem conectividade de rede.
Estamos em 2025. O café da sala dos servidores continua horrível, os usuários continuam clicando em links de phishing, e a indústria de armazenamento continua tentando reinventar a roda — só que agora a roda tem luzes RGB e custa o triplo porque é "AI-Ready".
Como alguém que já viu tecnologias irem e virem (lembra do Fibre Channel sobre Token Ring? Pois é, eu lembro), estou aqui para cortar o ruído. Vamos ignorar os slides de PowerPoint coloridos e olhar para o que realmente está acontecendo nos racks frios e barulhentos do seu data center.
O Hype do 'AI-Native Storage': A Nova Etiqueta de Preço
Vamos começar endereçando o elefante na sala, que por acaso está pintado de neon e gritando "Machine Learning". O termo "AI-Native Storage" é a maior fraude de marketing desde a "Nuvem Híbrida Sem Fricção".
O que os vendors querem que você acredite é que, para alimentar suas GPUs H100 ou B200 famintas, você precisa de um tipo de armazenamento místico que "entende" os dados. A realidade? É apenas um NVMe All-Flash Array com uma interface de gerenciamento mais pesada e um adesivo novo.
Eles vendem a ideia de que o armazenamento está otimizando o fluxo de tensores em tempo real. Na prática, o que você está pagando é por:
GPUDirect Storage (GDS): Que é útil, sim, para pular a CPU e jogar dados direto na memória da GPU, mas não é mágica, é apenas DMA (Direct Memory Access) glorificado.
Deduplicação baseada em "IA": Uma desculpa para usar mais ciclos de CPU do controlador para fazer o que algoritmos determinísticos já faziam bem em 2015.
Previsão de Falhas: "Nossa IA prevê quando o disco vai falhar". Sabe o que mais prevê isso? O SMART data e um sysadmin que monitora seus logs.
Se o seu workload não envolve treinar um LLM com petabytes de texto raspado da internet, você não precisa de "AI Storage". Você precisa de IOPS e latência baixa. Não pague o "imposto da IA" se você só está hospedando bancos de dados SQL e arquivos de RH.
A Realidade Operacional: NVMe Gen5 e o Fim do SAS Mecânico
Enquanto o marketing vive em Nárnia, a realidade operacional no chão do data center mudou de forma tangível. A maior mudança de 2025 não é a IA, é o funeral definitivo dos discos rotacionais de alta performance.
O Adeus ao SAS 15k e 10k
Se você ainda está comprando discos rígidos SAS de 10k ou 15k RPM para produção, pare. Você está queimando dinheiro e eletricidade. O SAS mecânico está morto. O custo por IOPS de um SSD, mesmo os mais baratos, obliterou qualquer argumento a favor do disco giratório para performance.
Discos mecânicos (HDDs) agora têm um único lugar: Armazenamento de Objeto (Object Storage) de alta densidade e baixo custo. Estamos falando de drives de 30TB+ Nearline SAS para dados que ninguém acessa, mas que o departamento jurídico diz que você não pode apagar.
A Ubiquidade do NVMe (Gen4 e Gen5)
O padrão agora é NVMe de ponta a ponta. O barramento PCIe Gen5 trouxe larguras de banda obscenas (até 14 GB/s por drive), mas criou um novo problema que os vendedores evitam mencionar: Gargalos de CPU.
Você pode encher um servidor 2U com 24 drives NVMe Gen5, mas a menos que você tenha CPUs EPYC ou Xeon de última geração com pistas PCIe suficientes (e configuradas corretamente sem oversubscription nos switches PLX), seus drives vão passar a maior parte do tempo esperando o processador acordar.
Figura: Fig. 1: A hierarquia de armazenamento pragmática vs. o que o vendedor tenta te empurrar.
A ironia é deliciosa: passamos décadas esperando o disco (o gargalo mecânico) e agora o disco espera a CPU.
Onde a Infraestrutura Falha: Durabilidade QLC e Pesadelos Térmicos (EDSFF)
Nem tudo são flores no mundo do flash. A busca incessante por densidade e redução de custo trouxe dois pesadelos operacionais para a minha mesa.
A Armadilha do QLC (Quad-Level Cell)
Para competir com o preço dos HDDs, a indústria empurrou o NAND QLC goela abaixo. Eles prometem "densidade de flash a preço de disco". O que eles escondem nas letras miúdas é a durabilidade.
Drives QLC modernos têm uma resistência patética. Estamos falando de 0.1 a 0.3 DWPD (Drive Writes Per Day). Se você cometer o erro de colocar um banco de dados transacional ou, Deus me livre, um cache de escrita (SLOG/WAL) em um drive QLC, ele vai virar um peso de papel caro em seis meses.
Regra de Ouro: QLC é para leitura (Read-Intensive). Se você tem escrita pesada, fique no TLC ou pague pelo Optane (se você ainda encontrar estoque) ou tecnologias similares de SCM (Storage Class Memory).
O Pesadelo Térmico do EDSFF (The "Ruler")
O formato M.2 e U.2 está dando lugar ao EDSFF (Enterprise & Data Center SSD Form Factor), os famosos drives "régua" (E1.S, E1.L). Eles são ótimos para densidade térmica, permitindo petabytes em 1U.
O problema? Calor. Esses drives densos esquentam tanto que os servidores modernos precisam de ventoinhas rodando a RPMs que simulam a decolagem de um Boeing 747. O consumo de energia para resfriar o armazenamento agora rivaliza com o consumo do próprio armazenamento. Se uma ventoinha falhar em um chassi EDSFF denso, você tem segundos — não minutos — antes que o throttling térmico mate sua performance ou o servidor desligue para evitar derretimento.
A Alternativa Chata que Funciona: ZFS, LTO e Repatriação de Dados
Agora que já reclamei do que é novo e brilhante, vamos falar do que realmente salva o seu emprego quando o ransomware ataca ou o CFO vê a fatura da AWS.
O Retorno do Rei: ZFS
Em 2025, o sistema de arquivos mais avançado ainda é aquele criado pela Sun Microsystems há duas décadas. O OpenZFS continua sendo a única barreira sã entre seus dados e a corrupção silenciosa (bit rot).
Enquanto vendors tentam vender appliances proprietários de "Software-Defined Storage", um servidor commodity rodando Linux ou FreeBSD com ZFS oferece:
Compressão LZ4/Zstd: Transparente e economiza espaço real.
Snapshots Atômicos: A única defesa real contra usuários que deletam arquivos "sem querer".
ARC/L2ARC: Cacheamento inteligente que realmente entende padrões de acesso melhor que a "IA" do vendor.
A Fita Não Morreu (LTO-10 e além)
Riam o quanto quiserem, "Geração Nuvem". Quando o ransomware criptografar seus buckets S3 imutáveis (porque alguém vazou a chave de API), a minha fita LTO (Linear Tape-Open) na prateleira, totalmente desconectada da rede (Air Gap real, não lógico), será a única cópia limpa dos dados.
LTO-10 oferece 18TB nativos (45TB comprimidos) por cartucho a um custo por terabyte ridículo. É lento? É. É sequencial? É. Funciona quando o mundo acaba? Sim.
A Grande Repatriação (Sair da Nuvem)
A tendência mais forte de 2025 entre sysadmins sérios é a Repatriação de Dados. Percebemos que alugar disco da Amazon/Google/Azure é financeiramente insustentável para armazenamento de longo prazo em escala de petabytes.
As taxas de egresso (custo para tirar o dado de lá) são o modelo de sequestro moderno. Construir um cluster de armazenamento on-prem com MinIO ou Ceph sobre hardware commodity pagou-se em 8 meses na minha última análise de TCO.
Comparativo de Realidade:
| Característica | Nuvem Pública (S3/Blob) | On-Prem (ZFS/Ceph + Tape) |
|---|---|---|
| Custo por TB/Mês | Alto (cresce linearmente) | Baixo (custo inicial amortizado) |
| Performance | Latência de rede + Throttling | Velocidade de linha local (NVMe) |
| Soberania | "Confia, está na nossa região" | Eu sei exatamente onde o disco está |
| Recuperação de Desastre | Rápido (se pagar caro pelo egresso) | Lento (Fita) ou Instantâneo (Replicação) |
| Complexidade | Baixa (até chegar a conta) | Média/Alta (exige competência) |
Veredito Técnico Rabugenta: RAID Não É Backup e a Nuvem é Cara
Se você levar apenas uma coisa deste artigo, que seja isto: a tecnologia muda, mas a física e a ganância corporativa não.
O "AI-Native Storage" é apenas uma maneira de extrair mais orçamento do seu CIO. O NVMe Gen5 é incrível, mas inútil se sua CPU for o gargalo. E a nuvem é apenas o computador de outra pessoa — uma pessoa que cobra aluguel por cada gigabyte e cada operação de I/O.
Mantenha sua infraestrutura simples.
Use NVMe para o que precisa ser rápido.
Use HDD/Object Storage para o que precisa ser grande.
Use Fita para o que precisa ser seguro.
Use ZFS para gerenciar tudo isso sem perder a sanidade.
E pelo amor de Kernighan & Ritchie, parem de acreditar que RAID é backup. RAID é disponibilidade. Se você apagar o arquivo, o RAID vai replicar essa deleção com uma eficiência brutal e perfeita em todos os discos.
Agora, se me dão licença, tenho que ir trocar um drive que falhou no array de backup. E não, a IA não previu isso.
Referências Técnicas e Leitura Obrigatória
NVM Express Base Specification 2.0: Para entender que NVMe não é mágica, é protocolo.
OpenZFS Documentation: A bíblia da integridade de dados.
LTO Program Roadmap: A prova de que a fita vai sobreviver a todos nós.
Backblaze Hard Drive Stats: A única fonte honesta sobre confiabilidade de discos mecânicos.
"The Case for Repatriation" (Diversos whitepapers): Análises de custo de TCO Cloud vs. On-Prem.
Roberto Xavier
Comandante de Incidentes
"Lidero equipes em momentos críticos de infraestrutura. Priorizo a restauração rápida de serviços e promovo uma cultura de post-mortem sem culpa para construir sistemas mais resilientes."