Cloud-like Experience: O Checklist Definitivo para não ser Cosplay de Nuvem

      Lucas Ferreira 9 min de leitura
      Cloud-like Experience: O Checklist Definitivo para não ser Cosplay de Nuvem

      Sua 'nuvem privada' é apenas virtualização com marketing? Descubra o que realmente define uma cloud-like experience: APIs, automação e zero tickets.

      Compartilhar:

      O seu CIO acabou de voltar de uma conferência em Las Vegas. Ele está bronzeado, usando um sapatênis novo e com a cabeça cheia de palavras-chave que custam o equivalente ao PIB de um pequeno país insular. Ele entra na sua sala, interrompe sua leitura de logs de kernel e solta a bomba: "Precisamos de uma experiência Cloud-like no nosso Data Center. Quero agilidade de startup com a segurança do nosso bunker".

      Você suspira. Você sabe o que isso significa. Significa que ele quer que o cluster de virtualização legado, que roda em hardware comprado durante o segundo mandato do Obama, magicamente se comporte como a AWS us-east-1.

      O mercado chama isso de "Repatriação de Nuvem" ou "Private Cloud". Eu chamo de "Cosplay de Nuvem". É quando você veste seu rack de servidores com uma capa de super-herói, mas ele continua sendo apenas um monte de metal que precisa de ar condicionado e reza brava para não travar no reboot.

      Se você quer evitar que sua infraestrutura seja uma piada interna no Slack dos desenvolvedores, pare de fingir. Uma "Cloud-like Experience" não é instalar um painel bonito sobre o VMware. É uma mudança fundamental de arquitetura. Se você não consegue marcar os itens abaixo, você não tem uma nuvem privada. Você tem apenas um zoológico de máquinas virtuais com um ticket de entrada muito caro.

      A Falácia da 'Nuvem' On-Premises: Virtualização não é Elasticidade

      Vamos tirar o elefante da sala. Ter 95% de virtualização não faz de você um provedor de nuvem. Faz de você um administrador eficiente dos anos 2010. A diferença crítica entre virtualização massiva e nuvem é a elasticidade programática.

      Na virtualização clássica, o provisionamento é baseado em capacidade estática. Você compra o hardware, fatia ele em VMs e torce para o departamento de Marketing não decidir rodar uma análise de Big Data na sexta-feira à tarde. Se o recurso acaba, você tem que ligar para o fornecedor, esperar 45 dias pela entrega do servidor, parafusar no rack e configurar. Isso não é nuvem. Isso é almoxarifado.

      Para ter uma experiência Cloud-like, o hardware subjacente deve ser irrelevante para o consumidor do recurso. O sistema deve ser capaz de overcommit inteligente e rebalanceamento automático de carga sem intervenção humana. Se o seu "autoscaling" envolve você receber um alerta no PagerDuty às 3 da manhã para migrar VMs manualmente porque a CPU do Host 04 está fritando, você falhou.

      A elasticidade real exige que o hardware seja tratado como gado, não como animal de estimação (o velho clichê Cattle vs. Pets). Se você sabe o nome do servidor físico onde roda o banco de dados da produção, você já perdeu o jogo.

      API ou Morte: Se não dá para rodar um Terraform Apply, é Legado

      O teste decisivo de qualquer infraestrutura moderna é simples: eu consigo subir todo o ambiente de produção, do zero, usando apenas código?

      Se a resposta for "Bem, eu preciso logar na GUI do firewall para criar a regra, depois ir na interface do Storage para criar o LUN e depois...", pare. Desligue tudo. Vá para casa.

      Uma experiência de nuvem exige que tudo seja uma API. A interface gráfica (GUI) é para gerentes verem gráficos coloridos e se sentirem importantes. Para engenheiros e para a automação, a GUI é um obstáculo. O conceito de Infrastructure as Code (IaC) não é negociável.

      Se o seu desenvolvedor quer subir um cluster Kubernetes, ele deve ser capaz de definir isso num arquivo .tf (Terraform) ou num Playbook do Ansible e executar contra a sua infraestrutura. O seu ambiente on-premise deve expor endpoints compatíveis ou plugins funcionais.

      O problema do "ClickOps" (operações baseadas em cliques) é que ele não escala e não é auditável. Quando o sistema cai, ninguém sabe qual caixa de seleção obscura o estagiário marcou na semana passada. Com IaC, o erro está no git commit, visível e reversível. Se o seu fornecedor de hardware diz que é "Cloud Ready" mas a API dele é uma coleção de scripts SOAP mal documentados de 2008, ele está mentindo para você.

      O Gargalo Invisível: SDN e Storage Definido por Software (SDS)

      Você automatizou a criação da VM. Parabéns, isso leva 30 segundos. Mas a VM precisa de uma VLAN específica, uma regra de firewall e um volume de armazenamento persistente.

      E é aqui que o sonho da nuvem privada morre estrangulado pelo cabo de rede azul.

      Na maioria das empresas, a criação da VM é rápida, mas a configuração de rede leva duas semanas porque depende do "Time de Redes" abrir um ticket, configurar a porta do switch, atualizar o firewall e rezar para o BGP convergir. O mesmo vale para o armazenamento: se você precisa pedir para o "Time de Storage" criar um LUN e fazer o zoneamento na SAN Fibre Channel, sua automação é inútil.

      Fig. 1: O fluxo da verdade. Se o desenvolvedor precisa falar com um humano para chegar no hardware (direita), o fluxo está quebrado. Figura: Fig. 1: O fluxo da verdade. Se o desenvolvedor precisa falar com um humano para chegar no hardware (direita), o fluxo está quebrado.

      Para não ser um cosplay, você precisa de Software-Defined Networking (SDN) e Software-Defined Storage (SDS).

      1. SDN (ex: NSX, ACI, OVN): A rede deve ser criada e destruída junto com a aplicação. O desenvolvedor define que precisa de um Load Balancer e isolamento de rede; o controlador SDN traduz isso em regras de VXLAN ou Geneve e aplica nos switches. Sem interação humana.

      2. SDS (ex: Ceph, vSAN, MinIO): O armazenamento não é mais uma caixa preta monolítica proprietária. É um pool de discos commodity gerenciados por software. A aplicação pede um Persistent Volume Claim (PVC) via API, e o sistema entrega.

      Se o seu hardware de rede e storage não fala a mesma língua da sua camada de orquestração, você não tem uma nuvem. Você tem um processo burocrático digitalizado.

      Self-Service Real vs. O 'Ticket para o Gary' (Provisionamento Instantâneo)

      Muitas empresas implementam um "Portal de Nuvem". Parece bonito. Tem ícones de servidores, bancos de dados e balanceadores. O usuário clica em "Criar Servidor", preenche um formulário e clica em "Enviar".

      Por trás das cortinas, esse botão não dispara uma API. Ele envia um e-mail para o Gary, o sysadmin sênior que fica no subsolo. O Gary lê o e-mail, suspira, termina o café, e vai criar a máquina manualmente. O SLA é de 48 horas.

      Isso não é Self-Service. Isso é um formulário de contato glorificado.

      O verdadeiro Self-Service, a tal Cloud-like experience, remove o Gary da equação (para a alegria do Gary). O portal deve ser apenas um frontend para as APIs que discutimos antes. O fluxo deve ser:

      1. Usuário solicita recurso.

      2. Sistema verifica quotas (O departamento dele tem orçamento? Tem CPU livre?).

      3. Sistema verifica políticas de segurança (RBAC).

      4. Sistema provisiona o recurso.

      5. Sistema devolve o IP e as credenciais para o usuário.

      Tempo total: Minutos. Interação humana: Zero.

      Se houver uma etapa de "Aprovação Manual" para uma VM de desenvolvimento padrão, você quebrou o modelo. A governança deve ser feita via Policy as Code (política como código), não por burocratas clicando em "Aprovar" no ServiceNow.

      Observabilidade e Billing Granular: O Fim do Rateio Chutado

      A nuvem pública viciou os CFOs em uma coisa: faturas detalhadas. Eles sabem exatamente quanto o ambiente de QA gastou em Lambda functions no mês passado.

      No on-premise tradicional, o custo de TI é um buraco negro chamado "Rateio". O departamento de TI pega o custo total de hardware, energia e licenças, divide pelo número de usuários e cobra de todo mundo. Isso é injusto e ineficiente. O setor de Vendas, que usa apenas e-mail, paga o mesmo que a Engenharia, que roda simulações de Monte Carlo em clusters de GPU.

      Para deixar de ser cosplay, sua infraestrutura deve medir o consumo. CPU, RAM, IOPS de disco e largura de banda de rede devem ser metrificados por projeto ou tenant.

      Você precisa implementar ferramentas de Chargeback (cobrar de verdade) ou Showback (mostrar quanto custaria). Quando o gerente do projeto ver que aquele ambiente de teste "temporário" esquecido ligado há seis meses custaria R$ 15.000,00 na AWS, ele vai mandar desligar na hora.

      Sem observabilidade financeira e técnica (Prometheus, Grafana, ELK Stack integrados na plataforma), você não tem controle. Você está apenas operando no escuro, esperando a conta de luz chegar para descobrir que alguém minerou criptomoeda no servidor de backup.

      Veredito: Ou você automatiza, ou vira peça de museu

      A dura realidade é que a "experiência de nuvem" não é sobre tecnologia. É sobre eliminar o atrito. Desenvolvedores vão para a AWS não porque amam o Jeff Bezos, mas porque lá eles não precisam abrir um chamado no Jira e esperar três dias para ter um IP.

      Se a sua infraestrutura on-premise não oferecer uma experiência sem atrito (API-first, elástica, self-service), ela será contornada. É o nascimento da Shadow IT. Seus desenvolvedores vão usar o cartão de crédito corporativo para subir coisas na nuvem pública escondido, deixando você cuidando de servidores legados que ninguém mais quer usar.

      Não seja o guardião do museu de hardware. Automatize-se para fora do trabalho manual. Construa uma plataforma onde você é o arquiteto que define as regras do jogo, não o operário que aperta os parafusos toda vez que alguém quer jogar. Ou faça isso, ou prepare-se para explicar por que o "Cosplay de Nuvem" custa o triplo e entrega a metade.

      Referências & Leitura Complementar

      Para aqueles que preferem dados a opiniões, aqui estão as definições técnicas que validam por que o seu vCenter isolado não é uma nuvem:

      1. NIST SP 800-145 (The NIST Definition of Cloud Computing): A bíblia. Se não atende às 5 características essenciais (Self-service sob demanda, Acesso via rede ampla, Resource pooling, Elasticidade rápida, Serviço mensurado), não é nuvem. Ponto.

      2. Google SRE Book (Capítulo sobre "Toil"): Leitura obrigatória para entender por que trabalho manual (o "Ticket para o Gary") é câncer operacional.

      3. CNCF Cloud Native Definition v1.0: Define o que realmente significa ser "Cloud Native" (contêineres, malhas de serviço, microserviços, infraestrutura imutável e APIs declarativas).

      4. RFC 7231 (Hypertext Transfer Protocol -- HTTP/1.1): Porque se você vai construir APIs, pelo menos aprenda a usar os verbos HTTP corretamente e pare de fazer tudo via POST.

      #cloud-like experience #infraestrutura como código #automação de infraestrutura #private cloud vs virtualization #API-first infrastructure
      Lucas Ferreira
      Assinatura Técnica

      Lucas Ferreira

      Engenheiro de Observabilidade

      "Transformo o caos de logs, métricas e traces em clareza operacional. Minha missão é eliminar pontos cegos e garantir que nada permaneça invisível na infraestrutura."