Manutenção em imersão: trocando hardware em tanques de fluido dielétrico

      Carlos Ornelas 10 min de leitura
      Manutenção em imersão: trocando hardware em tanques de fluido dielétrico

      Guia técnico para troca de SSDs e componentes em Single-Phase Immersion Cooling. Protocolos de drenagem, substituição de TIM por Indium e prevenção de efeito capilar.

      Compartilhar:

      Manutenção em imersão: trocando hardware em tanques de fluido dielétrico

      Se você acha que trocar um backplane de NVMe em um chassi 2U apertado é ruim, espere até ter que fazer isso com os braços mergulhados até o cotovelo em óleo mineral sintético ou fluido de engenharia. A refrigeração por imersão (Immersion Cooling) deixou de ser apenas uma curiosidade de feiras de supercomputação e começou a invadir o espaço de datacenters de alta densidade e até alguns home labs extremos. Mas o marketing raramente mostra o que acontece na terça-feira à tarde quando um SSD falha ou um módulo de memória decide corromper dados.

      Diferente do ar, que é "grátis" e não suja suas calças, o fluido dielétrico muda fundamentalmente a mecânica da manutenção. Não estamos mais lidando apenas com fluxo de ar e pressão estática; agora temos viscosidade, empuxo, capilaridade e compatibilidade química de materiais.

      Resumo em 30 segundos

      • A sujeira é real: A manutenção em imersão exige protocolos rigorosos de drenagem e limpeza ("drip time") que aumentam drasticamente o tempo de troca de peças simples.
      • O fim da pasta térmica: Pastas térmicas tradicionais se dissolvem no fluido, contaminando o tanque e entupindo filtros. O uso de folhas de Índio (Indium) ou almofadas de grafite é obrigatório.
      • HDDs são problemáticos: Apenas discos selados a hélio sobrevivem submersos. Discos convencionais possuem orifícios de equalização de pressão que permitem a entrada do fluido, destruindo os pratos e cabeças de leitura.

      Servidor sendo extraído do tanque: o Figura: Servidor sendo extraído do tanque: o "drip time" é uma etapa crítica antes de qualquer toque no hardware.

      O alerta de falha e a barreira da viscosidade

      Quando o LED âmbar acende em um rack refrigerado a ar, você abre a porta, puxa o trilho e troca a peça. Em um tanque de imersão monofásica (onde o fluido não ferve, apenas circula), o processo começa com a preparação da área de "zona suja".

      O fluido dielétrico, seja ele à base de hidrocarbonetos sintéticos (como as linhas da Shell ou Castrol) ou fluorquímicos (o legado 3M Novec, agora em fase de descontinuação por questões ambientais/PFAS), possui uma viscosidade que varia com a temperatura. A 50°C, ele escorre como água. A 20°C, pode parecer azeite de oliva.

      Ao receber o alerta de falha em um drive NVMe U.2, a primeira barreira física é o peso. O fluido adiciona massa ao servidor durante a extração e cria resistência. Você não "puxa" o servidor; você o iça. A maioria dos tanques comerciais (como os da GRC ou Submer) utiliza guindastes integrados ou exige um carrinho de elevação para nós de computação densos.

      ⚠️ Perigo: Nunca subestime o peso do fluido retido. Um chassi 1U cheio de dissipadores de calor densos pode reter litros de fluido em suas aletas se puxado muito rápido, criando um risco de segurança e uma bagunça garantida no chão do datacenter.

      A física dos fluidos: capilaridade e degradação de materiais

      Aqui entramos em um território que a maioria dos administradores de sistemas ignora: a química dos cabos. O fluido dielétrico é um solvente suave para muitos polímeros.

      Cabos PVC baratos, comuns em patch cords de rede ou cabos SATA genéricos, tendem a endurecer com o tempo quando submersos. O plastificante lixivia para o fluido (contaminando-o) e o cabo vira uma vara rígida que quebra se você tentar dobrá-la para acessar um slot de memória. Em ambientes de imersão sérios, usamos cabos com revestimento de Teflon (PTFE) ou FEP, que são quimicamente inertes.

      Outro fenômeno físico fascinante e destrutivo é a capilaridade. O fluido dielétrico tem uma tensão superficial muito baixa. Isso significa que ele adora "escalar" superfícies. Se você tiver um cabo de fibra ou cobre saindo do tanque e indo para um switch Top-of-Rack (ToR) que não está imerso, o óleo pode viajar por dentro da malha do cabo, desafiando a gravidade, e gotejar dentro da porta do switch, arruinando um equipamento de rede de 10 mil dólares.

      💡 Dica Pro: Em setups de imersão, sempre faça um "loop de gotejamento" (drip loop) nos cabos logo após a saída do tanque e remova a capa externa do cabo em um segmento pequeno (se possível e seguro) para quebrar a ação capilar antes que ela atinja o switch.

      Ação capilar: o inimigo silencioso que transporta fluido para onde ele não deve ir. Figura: Ação capilar: o inimigo silencioso que transporta fluido para onde ele não deve ir.

      O dilema do armazenamento: HDDs vs. Fluidos

      No contexto de storage, a imersão é binária. Ou funciona perfeitamente, ou é catastrófica.

      Discos Rígidos (HDDs): A maioria dos HDDs enterprise tradicionais possui um pequeno orifício de respiro com um filtro para equalizar a pressão atmosférica interna. Se você mergulhar um desses, o fluido dielétrico entra, cobre os pratos magnéticos e a viscosidade impede que a cabeça de leitura/gravação flutue corretamente. O resultado é perda total de dados e hardware. A única exceção são os HDDs selados a Hélio. Como são hermeticamente fechados para manter o gás nobre, eles são, por definição, à prova de líquidos. Temos rodado drives de 18TB e 22TB selados a hélio em tanques de teste sem problemas, desde que os conectores SAS/SATA estejam limpos.

      SSDs e NVMe: São inerentemente mais seguros, mas não imunes. O problema aqui não é a eletrônica, mas as etiquetas. As etiquetas de papel e cola padrão dos fabricantes se desintegram no fluido. A cola vira uma gosma que se solta e viaja pelo tanque até ser sugada pela bomba de circulação, entupindo o filtro principal.

      Antes de instalar qualquer SSD em imersão, passamos horas removendo etiquetas de garantia (sim, isso anula a garantia, a menos que você tenha um acordo específico com o vendor) ou aplicando fita Kapton sobre elas para selar as bordas.

      Por que pastas térmicas convencionais contaminam o tanque

      Este é o erro número um de quem monta o primeiro "aquário de servidores". A pasta térmica cinza que vem pré-aplicada no cooler do seu processador é baseada em silicone ou óleos que se dissolvem em contato com hidrocarbonetos.

      Após algumas horas de operação, você notará o fluido ficando turvo. A pasta foi lavada do soquete da CPU. Isso cria dois problemas críticos:

      1. Perda de contato térmico: O ar (ou fluido) entra entre o IHS do processador e o dissipador, causando superaquecimento imediato.

      2. Contaminação: As partículas suspensas podem se depositar em slots PCIe ou DIMM, agindo como isolantes nos contatos elétricos, causando erros de barramento intermitentes que são um pesadelo para diagnosticar.

      A solução da indústria é o Índio (Indium) ou almofadas de grafite (como as da Panasonic ou Thermal Grizzly Carbonaut).

      Esquerda: O desastre da pasta térmica comum. Direita: A aplicação correta de folha de Índio. Figura: Esquerda: O desastre da pasta térmica comum. Direita: A aplicação correta de folha de Índio.

      Protocolo de extração vertical e substituição por Indium

      Vamos ao procedimento prático. Digamos que precisamos trocar a CPU de um nó de computação imerso.

      1. Içamento e Escorrimento: O servidor é levantado e deixado suspenso sobre o tanque por 5 a 10 minutos. Esse é o "drip time". Usamos ar comprimido (com cuidado) para soprar o excesso de fluido dos dissipadores.

      2. Limpeza da Área: O servidor vai para uma mesa de aço inoxidável com calhas de drenagem. O fluido é caro, então tentamos recuperar o que cai na mesa, mas geralmente o que sai do tanque é considerado perda ou precisa de filtragem pesada antes de voltar.

      3. Remoção do Dissipador: Ao remover o bloco térmico, não há pasta para limpar, apenas óleo.

      4. Aplicação do Índio: O Índio é um metal macio. Usamos folhas de 0.1mm a 0.2mm de espessura. Ele não se espalha como pasta; ele se deforma. Você corta a folha no tamanho exato do IHS.

        • Atenção: O Índio é condutor elétrico. Se um pedaço cair nos pinos do soquete ou capacitores ao redor da CPU, você causará um curto-circuito fatal. A precisão cirúrgica é necessária.
      5. Torque: A pressão de montagem é crítica. O Índio precisa de uma pressão de contato específica para preencher as micro-imperfeições do metal. Reapertamos os parafusos seguindo o padrão de estrela, muitas vezes com um torque ligeiramente maior do que o usado para pasta (respeitando o limite da placa-mãe, claro).

      Validação térmica e integridade do fluido dielétrico

      Após a troca do hardware, o servidor volta para o tanque. Mas você não pode simplesmente ligá-lo e ir embora.

      Ao submergir o chassi, bolhas de ar ficam presas embaixo de componentes, especialmente em baixo de placas-mãe e dentro de conectores de energia. O ar é um isolante térmico terrível. Se uma bolha de ar ficar presa no VRM (Módulo Regulador de Tensão) que alimenta seu novo processador, ele vai queimar em segundos sob carga.

      O procedimento padrão é "balançar" o servidor levemente enquanto submerso ou usar um fluxo direcionado de fluido para desalojar bolhas.

      Por fim, verificamos a saúde do fluido. Em grandes datacenters, monitoramos o TAN (Total Acid Number) e a tensão de ruptura dielétrica. Se o hardware anterior falhou de forma catastrófica (capacitor estourado), o fluido local pode estar degradado ou ácido. Kits de teste de campo são usados para garantir que o óleo ainda é isolante. Se a rigidez dielétrica cair abaixo de 30kV, é hora de filtrar ou trocar o fluido.

      Monitoramento constante: verificando a acidez e a rigidez dielétrica antes de reenergizar o sistema. Figura: Monitoramento constante: verificando a acidez e a rigidez dielétrica antes de reenergizar o sistema.

      O veredito da bancada

      A manutenção em imersão não é necessariamente mais difícil que a refrigeração a ar, mas é mais lenta e exige uma disciplina muito maior. Não existem atalhos. Você não pode fazer uma troca rápida de disco em 30 segundos.

      Para o universo de storage, a imersão apresenta um futuro promissor para densidade extrema de NVMe, onde o calor é o limitador de performance. No entanto, a incompatibilidade de materiais (colas, plásticos, cabos) e a necessidade de hardware específico (HDDs selados) ainda tornam essa tecnologia um nicho para quem realmente precisa dissipar mais de 100kW por rack ou operar em ambientes hostis sem ar condicionado.

      Se você está planejando um laboratório imerso ou gerenciando um datacenter que está migrando para essa tecnologia: invista em luvas de nitrilo de alta qualidade, compre rolos de papel absorvente industrial e nunca, jamais, use pasta térmica branca.

      Referências & Leitura Complementar

      • Open Compute Project (OCP): Immersion Cooling Requirements and Specs. Documentos fundamentais para entender os padrões de tanques e compatibilidade de materiais.

      • Shell Fluids: Datasheets da linha Shell Immersion Cooling Fluid S5 X. Detalhes sobre viscosidade e compatibilidade com polímeros.

      • 3M (Histórico): Novec Engineered Fluids Technical Data. Útil para entender as propriedades dos fluidos bifásicos e fluorquímicos, apesar da descontinuação.

      • Ashrae: Liquid Cooling Guidelines for Datacom Equipment. O guia definitivo para limites térmicos e ambientais.

      #immersion cooling maintenance #fluido dielétrico #troca de ssd imersão #indium foil thermal pad #single-phase immersion #manutenção datacenter #efeito capilar cabos
      Carlos Ornelas
      Assinatura Técnica

      Carlos Ornelas

      Mecânico de Datacenter

      "Vivo nos corredores frios instalando racks e organizando cabeamento estruturado. Para mim, a nuvem é feita de metal, silício e ventoinhas que precisam girar sem parar."