Arthur Sales

      Arthur Sales

      Gerente de Nível de Serviço

      Vivo na linha tênue entre a conformidade e a violação contratual. Para mim, 99,9% não é disponibilidade; é prejuízo. Exijo garantias absolutas e aplicação rigorosa de penalidades.

      Artigos publicados (20)

      Alua O Que E E Por Que Importa

      Alua O Que E E Por Que Importa

      Para entender o ALUA, primeiro precisamos destruir uma mentira confortável que o sistema operacional conta para si mesmo: a de que todos os cabos são iguais....

      Desvendando o Tamanho do Bloco: Por Que 4K, 8K ou 128K Importam (e Como Escolher)

      Desvendando o Tamanho do Bloco: Por Que 4K, 8K ou 128K Importam (e Como Escolher)

      O tamanho do bloco é um dos segredos mais mal compreendidos no mundo do armazenamento. Ignorá-lo pode levar a gargalos de performance severos, mesmo com hardwar...

      Snapshots O Que Sao E Como Proteger Contra Erro Humano

      Snapshots O Que Sao E Como Proteger Contra Erro Humano

      Snapshots não são cópias físicas de dados, são tabelas de ponteiros congeladas no tempo. Enquanto o método legado *Copy-on-Write* (CoW) penaliza a escrita ao mover dados antigos antes de sobrescrever, o moderno *Redirect-on-Write* (RoW) elimina essa latência escrevendo novos dados em blocos livres. Eles são sua defesa primária contra `rm -rf` e erros lógicos, permitindo RPOs de segundos, mas lembre-se: se o storage array falhar, seus snapshots morrem junto — eles nunca substituem um backup real. --- Se você já sentiu o sangue gelar após digitar um `DROP TABLE` ou um `rm -rf` no diretório errado, você entende o valor do tempo. Nesses momentos, restaurar de um backup (que pode ter horas de idade e levar horas para ser copiado) é inaceitável. É aqui que entra o snapshot. Muitos administradores tratam snapshots como "mágica", mas entender a mecânica de I/O por trás deles — especificamente a diferença entre **Copy-on-Write (CoW)** e **Redirect-on-Write (RoW)** — é o que separa quem recupera o ambiente em 30 segundos de quem derruba a performance do storage inteiro tentando salvar o dia. ## O que é um Snapshot (Nível de Bloco) No nível mais fundamental, em um ambiente de [Block, File e Object Storage](/articles/tipos-de-armazenamento-block-file-object), um snapshot **não é uma cópia dos dados**. É uma cópia dos **metadados** (ponteiros) que mapeiam onde os dados residem fisicamente no disco naquele exato momento. Quando você tira um snapshot, o sistema congela o mapa de blocos. O volume continua operando, mas o comportamento de escrita muda drasticamente dependendo da tecnologia subjacente. ## Copy-on-Write (CoW): O Modelo Tradicional O método CoW (usado classicamente pelo LVM no Linux e snapshots antigos de SANs) é robusto, mas introduz uma penalidade de escrita severa. **O fluxo de uma escrita em um volume com Snapshot CoW:** 1. A aplicação envia uma solicitação de escrita para o Bloco A. 2. O storage detecta que o Bloco A é protegido por um snapshot e ainda não foi modificado. 3. **Leitura:** O storage lê o conteúdo original do Bloco A. 4. **Cópia:** O storage escreve esse conteúdo original em uma área reservada (Snapshot Reserve). 5. **Escrita:** O storage finalmente sobrescreve o Bloco A com o novo dado da aplicação. Isso transforma 1 I/O de escrita lógico em **3 operações físicas de I/O** (1 Leitura + 2 Escritas). Isso é conhecido como "Write Penalty". ![Comparação estrutural: A atualização destrutiva tradicional versus a preservação de blocos no modelo Copy-on-Write.](/images/artigos/snapshots-o-que-sao-e-como-proteger-contra-erro-humano-diagrama-cow-vs-inplace-update.png) ### Exemplo Prático: LVM (Linux) No Linux, o LVM usa CoW. Se você criar um snapshot muito pequeno para um volume com alta taxa de alteração, o snapshot ficará inválido (corrompido) assim que a área reservada encher. ```bash # CUIDADO: Se as alterações no original excederem 1GB, o snapshot morre. lvcreate -L 1G -s -n lv_dados_snap /dev/vg01/lv_dados # Verificando o estado e preenchimento do snapshot lvs -o lv_name,snap_percent,origin ``` ## Redirect-on-Write (RoW): A Abordagem Moderna O RoW (usado por ZFS, NetApp WAFL, e storages modernos all-flash) resolve o problema da penalidade de escrita. **O fluxo de uma escrita em um volume com Snapshot RoW:** 1. A aplicação envia uma solicitação de escrita para o Bloco A. 2. O storage **não toca** no Bloco A original (ele permanece onde está, apontado pelo snapshot). 3. **Redirecionamento:** O storage escreve o novo dado em um **novo bloco livre** (Bloco B). 4. O ponteiro do volume ativo é atualizado para apontar para o Bloco B. Resultado: 1 I/O lógico = 1 I/O físico. Não há penalidade de leitura antes da escrita. A desvantagem histórica do RoW era a fragmentação (os dados ficam espalhados pelo disco), mas com a latência de busca quase nula dos SSDs/NVMe, isso se tornou irrelevante. ## Comparativo Técnico: CoW vs. RoW | Característica | Copy-on-Write (CoW) | Redirect-on-Write (RoW) | | :--- | :--- | :--- | | **Penalidade de Escrita** | Alta (3 I/Os por escrita). | Nula ou Mínima (1 I/O por escrita). | | **Performance de Leitura** | Alta no volume original (dados contíguos). | Pode degradar com o tempo (fragmentação), mitigado por SSDs. | | **Uso de Espaço** | Cresce conforme dados originais são alterados. | Cresce conforme novos dados são escritos. | | **Rollback (Reversão)** | Lento (precisa copiar dados de volta). | Instantâneo (apenas reverte ponteiros). | | **Exemplos** | LVM (Linux), VMware (VMFS), SANs Legadas. | ZFS, Btrfs, NetApp, Pure Storage, Ceph. | Como discutimos em [IOPS, Throughput e Latência: O Triângulo Mágico do Storage](/articles/iops-throughput-latencia-guia-completo), entender essas penalidades é vital para não saturar suas controladoras durante o horário de pico. ## A Mecânica do Rollback: Defesa Contra Erro Humano A principal função do snapshot para o Sysadmin é a reversão rápida. Diferente de um restore de backup que move terabytes de dados, o rollback de snapshot é uma operação de metadados. ![A anatomia de uma cadeia de snapshots e o processo lógico de reversão (rollback) para um estado anterior.](/images/artigos/snapshots-o-que-sao-e-como-proteger-contra-erro-humano-fluxo-snapshot-chain-rollback.png) Quando você executa um rollback, você está dizendo ao sistema de arquivos: "Descarte todos os blocos escritos após o Timestamp X e faça o ponteiro mestre apontar para a árvore de blocos do Timestamp X". ### Cenário Real: ZFS Rollback Imagine que um desenvolvedor rodou uma migração de banco de dados que corrompeu dados críticos. Se você usa ZFS: ```bash # 1. Listar snapshots disponíveis zfs list -t snapshot # Saída: # NAME USED AVAIL REFER MOUNTPOINT # tank/db@2023-10-27-0800 150M - 100G - # tank/db@2023-10-27-0900 50M - 101G - # 2. O desastre ocorreu às 09:15. Revertendo para as 09:00. # AVISO: Isso destrói qualquer dado criado APÓS as 09:00. zfs rollback -r tank/db@2023-10-27-0900 ``` Essa operação leva menos de 1 segundo, independentemente se o volume tem 100GB ou 10TB. Isso permite definir [RPO e RTO](/articles/rpo-e-rto-como-definir-metas-realistas) extremamente agressivos para falhas lógicas. ## O Perigo: Snapshots não são Backup Este é o erro mais comum que vejo juniores cometerem. **Snapshots dependem da integridade dos blocos originais no storage.** Se você tem um storage com RAID 5 e perde 2 discos (falha catastrófica do array), você perdeu o volume **E** os snapshots. O snapshot reside na mesma estrutura física. Além disso, cadeias longas de snapshots (especialmente em modelos CoW como VMware) degradam a performance. Cada leitura de um bloco não modificado pode ter que percorrer uma cadeia de "delta files" para encontrar o dado correto. **Regra de Ouro:** Use snapshots para proteção operacional de curto prazo (horas/dias) e recuperação de erros lógicos. Use backups (em outro media/location) para proteção contra desastres e retenção de longo prazo. Veja mais sobre isso em [RAID não é backup: cenários reais de perda de dados](/articles/raid-nao-e-backup-cenarios-reais-de-perda-de-dados). ## Conclusão Para o Sysadmin Sênior, snapshots são ferramentas de precisão. 1. Prefira tecnologias **RoW** (como ZFS ou arrays modernos) para evitar impacto em produção. 2. Monitore o **consumo de espaço** (snapshots de volumes com alta taxa de escrita enchem o disco rapidamente). 3. Nunca confie neles como sua única cópia dos dados. Dominar essa mecânica permite que você ofereça à sua empresa uma "máquina do tempo" rápida e eficiente, transformando crises potenciais em meros inconvenientes de alguns minutos.

      ZFS no Proxmox: O Duelo recordsize vs volblocksize (O Fim do Write Amplification)

      ZFS no Proxmox: O Duelo recordsize vs volblocksize (O Fim do Write Amplification)

      Pare de matar seus SSDs. Entenda a matemática entre o bloco do ZFS e a sua VM, elimine o Read-Modify-Write e otimize databases no Proxmox.

      Benchmark de Storage no Proxmox: O Guia Anti-Ilusão

      Benchmark de Storage no Proxmox: O Guia Anti-Ilusão

      Pare de se enganar com números inflados pelo cache. Aprenda a usar o fio, entender o I/O path do KVM/ZFS e medir a performance real do seu storage.

      O Superciclo de Memória 2026-2027: Por que SSDs e DDR5 ficarão caros e como sobreviver

      O Superciclo de Memória 2026-2027: Por que SSDs e DDR5 ficarão caros e como sobreviver

      Análise técnica do superciclo de preços de SSD e DDR5 para 2026-2027. Entenda a escassez de wafers causada por IA/HBM e estratégias de arquitetura para mitigar custos de infraestrutura.

      Escalabilidade no Ceph: O Ponto de Ruptura dos OSDs e a Falácia do Infinito

      Escalabilidade no Ceph: O Ponto de Ruptura dos OSDs e a Falácia do Infinito

      O Ceph não escala infinitamente sem custos. Entenda como o excesso de OSDs satura os MONs, degrada o OSDMap e cria tempestades de peering que derrubam sua performance.

      ZFS Special VDEVs: Acelerando Metadados com Garantia de SLA

      ZFS Special VDEVs: Acelerando Metadados com Garantia de SLA

      Descubra como configurar Special VDEVs no ZFS para eliminar a latência de discos mecânicos. Guia técnico para Gerentes de Nível de Serviço focado em riscos e performance.

      Como Acelerar seu Pool de HDDs com ZFS Special VDEV (Sem Gastar uma Fortuna)

      Como Acelerar seu Pool de HDDs com ZFS Special VDEV (Sem Gastar uma Fortuna)

      Transforme seu NAS de 'spinning rust' em uma máquina de alta performance usando ZFS Special VDEV. Guia completo de dimensionamento, comandos e riscos.

      PCIe Gen6 e a barreira dos 30 GB/s: O salto de performance que (quase) ninguém pediu

      PCIe Gen6 e a barreira dos 30 GB/s: O salto de performance que (quase) ninguém pediu

      Análise técnica da nova era do armazenamento em 2026. Comparamos a maturidade dos SSDs Gen5 contra a força bruta e os desafios térmicos da primeira onda de drives PCIe Gen6 com modulação PAM4.

      Green SLAs: a nova métrica essencial para o armazenamento corporativo em 2026

      Green SLAs: a nova métrica essencial para o armazenamento corporativo em 2026

      Em 2026, disponibilidade não basta. Descubra como os Green SLAs e a métrica de Watts/TiB protegem seu caixa contra multas da CSRD e custos de energia.

      EXT4, NTFS e exFAT: Qual sistema de arquivos domina o armazenamento em 2026?

      EXT4, NTFS e exFAT: Qual sistema de arquivos domina o armazenamento em 2026?

      Descubra as diferenças críticas entre EXT4, NTFS e exFAT. Entenda qual sistema de arquivos oferece melhor performance, segurança e compatibilidade para seus discos e SSDs.

      Ciclo de vida do hardware e a blindagem de SLAs em storage corporativo

      Ciclo de vida do hardware e a blindagem de SLAs em storage corporativo

      Análise técnica sobre como a gestão do ciclo de vida do hardware define a conformidade de SLAs. Riscos de EOSL, cálculo de TCO e estratégias para evitar multas contratuais em data centers.

      Definindo SLOs de armazenamento: o custo oculto da latência versus disponibilidade

      Definindo SLOs de armazenamento: o custo oculto da latência versus disponibilidade

      99,999% de uptime não garante performance. Descubra como definir SLOs de latência em storage para evitar prejuízos financeiros e multas contratuais.

      SLOs de latência em storage NVMe: blindando contratos e garantindo performance

      SLOs de latência em storage NVMe: blindando contratos e garantindo performance

      Guia definitivo para Gerentes de Nível de Serviço: como definir SLOs de latência em NVMe, evitar a armadilha da média e calcular o ROI real da infraestrutura.

      NVMe como blindagem jurídica para SLAs de alta disponibilidade

      NVMe como blindagem jurídica para SLAs de alta disponibilidade

      Descubra como a previsibilidade do NVMe elimina multas contratuais, reduz a latência de cauda e garante a conformidade de 99,999% em ambientes de missão crítica.

      SLAs de recuperação cibernética no armazenamento: quando o uptime não garante a integridade

      SLAs de recuperação cibernética no armazenamento: quando o uptime não garante a integridade

      Disponibilidade 99,999% não protege contra ransomware. Descubra como implementar SLAs de Recuperação Cibernética (Cyber Recovery) em sua infraestrutura de storage e reduzir prêmios de seguro.

      Resiliência cibernética em storage: reescrevendo SLAs para além do uptime

      Resiliência cibernética em storage: reescrevendo SLAs para além do uptime

      O ransomware tornou obsoletos os contratos de 99,999% de disponibilidade. Descubra como redefinir SLAs de armazenamento focando em recuperação lógica e imutabilidade.

      Da disponibilidade à resiliência: redefinindo contratos e SLAs de armazenamento

      Da disponibilidade à resiliência: redefinindo contratos e SLAs de armazenamento

      Esqueça os 'cinco noves'. Descubra por que a disponibilidade isolada é uma métrica obsoleta para storage e como blindar seus contratos com foco em RPO, RTO e resiliência cibernética.

      FinOps em storage: auditando a relação entre custo e níveis de serviço

      FinOps em storage: auditando a relação entre custo e níveis de serviço

      Descubra como aplicar metodologias de FinOps para otimizar custos de armazenamento sem violar SLAs críticos. Uma análise técnica sobre TCO, tiering e governança de dados.