Instabilidade causada por falha de infraestrutura no data center US-EAST (Newark)

Incident Report for Cademi

Postmortem

Sobre o ocorrido:

A dificuldade de acesso foi causada por uma interrupção em parte da infraestrutura de nosso provedor de hosting no data center US-EAST (Newark-NY), devido a complicações no sistema de refrigeração após uma queda de energia.

Você pode acompanhar os detalhes técnicos e toda a comunicação pública do nosso fornecedor sobre o ocorrido por aqui:
https://status.linode.com/incidents/6yw88b0ft94g

Fato Relevante:

Este problema envolvendo tal fornecedor em específico impactou não somente os serviços da Cademí, mas de milhares de outras empresas ao redor do mundo que também confiam nesta solução para compor parte da infraestrutura dos serviços tecnológicos ofertados por elas.

A falha mencionada sobrecarregou em cascata os serviços de replicação / recuperação de falhas que, por sua vez, comprometeu também nossos servidores de redundância, impactando não só Newark, mas também os datacenters de Fremont, Dallas, Washington, Tokyo (Japão) e Sydney (Austrália).

Ações tomadas:

Em paralelo a este incidente, após 4 atualizações do fornecedor e entendido que tal situação poderia escalar, nosso time atuou prontamente e ativamente em reestruturar e ativar o serviço de backup da aplicação em outro serviço de hosting para garantir a continuidade dos serviços.

Por conta disso, nas próximas 24 horas, algumas funcionalidades da plataforma podem apresentar pequenos ajustes de performance enquanto ocorre a estabilização completa dos novos endereçamentos na rede.

Dados e informações:

Nenhuma informação ou dado relevante do seu projeto foi afetado ou perdido durante esse período.

Transações:

Todas as compras realizadas nesse intervalo foram salvas em um banco de dados específico e serão reprocessadas, garantindo o acesso dos seus alunos.

Agradecemos mais uma vez pela compreensão e reforçamos que estamos à disposição para apoiá-los no que for necessário.

Nossa equipe está monitorando ativamente todos os canais de suporte para qualquer esclarecimento.

Reiteramos nosso compromisso com a segurança, transparência e melhoria contínua de nossos sistemas.

Atenciosamente,
Equipe de Suporte Cademí

Posted Jul 29, 2025 - 21:52 GMT-03:00

Resolved

Todos os serviços foram restabelecidos.
Seguimos monitorando de perto para garantir a estabilidade contínua da plataforma.
Caso você ainda esteja enfrentando qualquer dificuldade, por favor, abra um chamado com nosso time de Suporte — estaremos prontos para ajudar.
Posted Jul 29, 2025 - 21:49 GMT-03:00

Update

O serviço de imagens, anexos, emissão de certificados e uploads está novamente 100% funcional.
Posted Jul 28, 2025 - 13:45 GMT-03:00

Update

Identificamos uma instabilidade no serviço de imagens da plataforma. Nossa equipe está atuando para normalização imediata.
Posted Jul 28, 2025 - 09:30 GMT-03:00

Update

Iniciamos o processamento das compras armazenadas em contingência durante o incidente. Os acessos estão sendo liberados gradualmente, com validação completa para cada transação.
Posted Jul 28, 2025 - 06:45 GMT-03:00

Update

Concluímos a reativação completa dos serviços principais da plataforma: filas de webhooks, envio de e-mails, API e acesso ao sistema. Também normalizamos o carregamento de imagens e anexos.
Posted Jul 28, 2025 - 02:45 GMT-03:00

Update

Estamos finalizando a propagação dos serviços essenciais em ambiente alternativo. A plataforma já apresenta sinais de recuperação parcial, e novas atualizações serão publicadas em breve.
Posted Jul 27, 2025 - 14:30 GMT-03:00

Update

Foi confirmado que o impacto se estende a outras regiões devido à interdependência dos serviços, afetando também os data centers de Dallas, Fremont, Washington, Sydney, Tokyo e Toronto. Seguimos com os planos de contingência e restauração.
Posted Jul 27, 2025 - 11:15 GMT-03:00

Update

O provedor de infraestrutura confirmou que a falha foi causada por um problema no sistema de refrigeração do data center após uma queda de energia. A energia já foi restabelecida, mas os impactos continuam. Diante da gravidade da situação, nossa equipe está iniciando a migração da infraestrutura crítica para outro ambiente.
Posted Jul 27, 2025 - 10:45 GMT-03:00

Identified

Nosso time ativou uma contingência para armazenar de forma segura todas as notificações de vendas enviadas pelos gateways de pagamento. Com isso, conseguimos garantir que nenhuma transação seja perdida — todas serão reprocessadas posteriormente, assegurando o acesso dos alunos.
Posted Jul 27, 2025 - 08:30 GMT-03:00

Investigating

Estamos investigando uma instabilidade generalizada que está afetando nossos serviços. O incidente tem origem em uma falha estrutural no data center US-EAST (Newark), de responsabilidade do nosso provedor de hosting. Seguimos monitorando e atualizaremos assim que tivermos novas informações.
Posted Jul 27, 2025 - 08:30 GMT-03:00
This incident affected: Área do Aluno, Área do Administrador, Processamento de acessos (Gateways de Pagamento), Envio de Emails, Envio de Webhooks, and API.