Computational storage: processamento no SSD e o fim do gargalo de von Neumann

A arquitetura de computação clássica, baseada no modelo de von Neumann, serviu fielmente à indústria de TI por décadas. No entanto, em um cenário dominado por cargas de trabalho intensivas em dados, como Inteligência Artificial (IA) generativa e Big Data Analytics, esse modelo atingiu um ponto de inflexão crítico. O problema não reside mais na capacidade de processamento da CPU ou na velocidade bruta dos SSDs NVMe, mas sim no caminho entre eles.

O movimento constante de petabytes de dados entre o armazenamento e a memória principal cria latência, consome energia excessiva e satura o barramento PCIe. A resposta da indústria para esse impasse é o Computational Storage (Armazenamento Computacional). Ao mover a computação para onde os dados residem, transformamos dispositivos de armazenamento passivos em processadores ativos, alterando fundamentalmente a economia do datacenter moderno.

Resumo em 30 segundos

O Gargalo: Mover dados do SSD para a CPU consome mais energia e tempo do que o próprio processamento, criando ineficiências em cargas de IA e bancos de dados.

A Solução: Drives de Armazenamento Computacional (CSDs) integram processadores (ARM ou FPGA) diretamente no SSD para filtrar, comprimir e analisar dados in situ.

O Futuro: A tecnologia CXL (Compute Express Link) está acelerando essa convergência, permitindo que o armazenamento atue como uma extensão coerente da memória do sistema.

O custo oculto da movimentação de dados

Para entender a necessidade do armazenamento computacional, precisamos analisar a física do datacenter. Em arquiteturas tradicionais, quando uma aplicação precisa analisar um conjunto de dados de 10 TB, esses dados devem trafegar do SSD, passar pelo controlador de armazenamento, atravessar o barramento PCIe, chegar à memória DRAM e, finalmente, ser processados pela CPU.

Esse trajeto é caro. Estudos de mercado indicam que, em aplicações de IA e genômica, mais de 60% da energia gasta pelo sistema é consumida apenas na movimentação de dados, não no cálculo útil. O barramento PCIe, mesmo em suas versões Gen 5.0 e futura 6.0, torna-se um funil.

💡 Dica Pro: Em ambientes de High Performance Computing (HPC), monitore a métrica de "Data Movement Energy". Muitas vezes, o gargalo térmico do seu rack não é a CPU rodando a 100%, mas a atividade intensa do barramento tentando alimentar essa CPU.

A premissa do Computational Storage é simples: se o dado é pesado, não o mova. Processe-o onde ele está.

Figura: Comparativo arquitetural: O modelo tradicional versus o processamento in-situ, onde apenas os resultados refinados trafegam pelo barramento.

Redefinindo o papel do SSD: de armazém a processador

O mercado de Enterprise Storage está vendo a ascensão dos CSDs (Computational Storage Drives). Estes não são SSDs comuns. Além da memória NAND Flash e do controlador tradicional, eles embarcam recursos de computação, geralmente núcleos ARM ou FPGAs (Field-Programmable Gate Arrays).

Empresas como Samsung (com o SmartSSD), ScaleFlux e NGD Systems têm liderado esse nicho. A abordagem varia, mas o objetivo é o mesmo: offload (descarregamento) de tarefas.

Casos de uso práticos e ganhos de eficiência

A aplicação dessa tecnologia não é teórica; ela resolve problemas imediatos de infraestrutura:

Compressão Transparente: O drive comprime e descomprime dados em tempo real usando seu próprio hardware. Isso libera a CPU host de ciclos intensivos e, curiosamente, pode aumentar a performance do SSD, pois menos dados físicos são escritos na NAND.
Filtragem de Banco de Dados (Pushdown): Em vez de enviar uma tabela inteira para a RAM para buscar um registro específico, o banco de dados envia a query para o SSD. O SSD varre os dados internamente e retorna apenas as linhas que correspondem à busca. O tráfego no PCIe cai drasticamente.
Pré-processamento de IA: Em edge computing, um SSD computacional pode realizar a inferência inicial ou a limpeza de dados de sensores antes de enviá-los para a nuvem ou para o servidor central.

A ScaleFlux, por exemplo, tem demonstrado em benchmarks que o uso de processamento no drive pode reduzir a latência de cauda (tail latency) em bancos de dados NoSQL, garantindo uma performance mais previsível sob carga pesada.

O papel do protocolo CXL na evolução

Enquanto os CSDs atuais operam via NVMe (Non-Volatile Memory Express), a verdadeira revolução estratégica reside na adoção do CXL (Compute Express Link).

O CXL é um padrão de interconexão aberto, baseado no PCIe, que permite coerência de cache entre a CPU e dispositivos aceleradores. Para o armazenamento, isso significa que o SSD (ou a memória expandida via CXL) pode ser acessado pela CPU com latências próximas às da DRAM, e o dispositivo de armazenamento pode acessar a memória do sistema diretamente.

Isso elimina muitas das barreiras de software que dificultavam a adoção do armazenamento computacional. Com o CXL, a distinção entre "memória" e "armazenamento" começa a desaparecer, criando um pool de recursos unificado.

Tabela comparativa: NVMe Padrão vs. Computational Storage vs. CXL

Característica	SSD NVMe Padrão	Computational Storage (CSD)	Armazenamento via CXL
Foco Principal	Armazenamento de alta velocidade	Processamento de dados in situ	Coerência de memória e expansão
Movimentação de Dados	Total (Do disco para a CPU)	Minimizada (Apenas resultados)	Otimizada (Acesso direto à memória)
Carga na CPU Host	Alta (Gerencia todo I/O e lógica)	Baixa (Offload de tarefas específicas)	Baixa (Gestão eficiente de recursos)
Complexidade de Integração	Baixa (Plug & Play)	Média/Alta (Requer APIs/Drivers)	Média (Depende de suporte da plataforma)
Caso de Uso Ideal	Boot, OS, Armazenamento Geral	DBs gigantes, Compressão, Edge AI	In-Memory DBs, IA em larga escala

A complexidade de software e a barreira de entrada

Apesar dos benefícios claros de hardware, a adoção em massa do armazenamento computacional enfrenta um obstáculo significativo: o ecossistema de software.

No modelo tradicional, o sistema operacional e as aplicações não precisam saber qual marca de SSD você está usando; eles apenas enviam comandos de leitura e escrita. No modelo computacional, a aplicação precisa saber como pedir ao drive para executar uma função (ex: "filtre estes dados").

Isso exige mudanças no código das aplicações ou o uso de APIs específicas. A SNIA (Storage Networking Industry Association) tem trabalhado arduamente para padronizar essas interfaces, criando um modelo de programação comum para que desenvolvedores não precisem reescrever código para cada fornecedor de hardware diferente.

⚠️ Perigo: A fragmentação do mercado é um risco real. Adotar soluções proprietárias de um único fabricante de CSD sem suporte a padrões da SNIA pode levar a um vendor lock-in severo, dificultando a migração futura da infraestrutura.

Figura: O desafio da integração: A camada de software e APIs padronizadas é o elo crítico para conectar aplicações legadas aos novos recursos de hardware.

Perspectiva estratégica

O armazenamento computacional não é uma substituição total para os SSDs convencionais, mas sim uma evolução necessária para camadas específicas do datacenter. Para analistas de infraestrutura, a recomendação é clara: avaliem CSDs para cargas de trabalho onde a proporção de leitura é massiva e a lógica de filtragem é simples e repetitiva.

A fusão entre armazenamento e computação é inevitável. À medida que os processos de fabricação de semicondutores avançam, o custo de incluir núcleos de processamento em controladores de SSD torna-se marginal. Em um horizonte de 3 a 5 anos, é provável que recursos básicos de computação (como compressão e criptografia avançada offloaded) se tornem padrão em drives Enterprise de gama média, deixando de ser um diferencial de nicho para se tornar um requisito de commodity.

O gargalo de von Neumann não desaparecerá da noite para o dia, mas com o processamento no SSD e a chegada do CXL, estamos finalmente construindo as pontes para contorná-lo.

O que é Computational Storage?

É uma arquitetura onde o processamento de dados ocorre diretamente no dispositivo de armazenamento (SSD), reduzindo a necessidade de mover dados para a CPU principal.

Quais são os benefícios do processamento in-situ?

Redução drástica da latência, diminuição do consumo de energia por evitar tráfego no barramento PCIe e liberação da CPU host para outras tarefas.

O Computational Storage substitui a CPU?

Não. Ele atua como um co-processador para tarefas específicas e repetitivas, como compressão, criptografia e filtragem de dados, complementando a CPU principal.