No dia 15 de maio de 2023, às 19:00 (horário de Brasília), registramos uma falha crítica em nosso serviço Core Internal API. Essa falha resultou em uma interrupção total dos principais serviços da LivePix.
Na manhã do mesmo dia, realizamos uma atualização no nosso cluster de produção do Kubernetes, visando integrar nodes com processadores ARM. Esses novos servidores têm a função de executar serviços que demandam pouco uso de CPU, uma medida estratégica para reduzir custos.
Nessa atualização, as imagens Docker dos serviços foram segmentadas por arquitetura (AMD64 e ARM).
A falha foi desencadeada pela imagem do Memcached, que opera como um "sidecar" no serviço Core Internal API, oferecendo cache de dados de baixa latência. Essa imagem não foi atualizada para a nova configuração segmentada, e quando o sistema iniciou novos Pods para atender à demanda de requisições do horário de pico, a imagem não foi localizada. Como resultado, o serviço Core Internal API foi interrompido completamente, afetando outros serviços que dependem dele.
A solução do problema foi alcançada com a correção da imagem Docker do Memcached. Depois de identificar a causa do problema e aplicar a solução, o sistema voltou a operar normalmente por volta das 2:50 do dia 16 de maio.
Dado que o problema foi desencadeado por uma atualização do sistema, implementamos uma nova política para esse tipo de modificação. Agora, temos procedimentos mais rigorosos em vigor para garantir que situações semelhantes não voltem a ocorrer.
Agradecemos a compreensão de todos e reforçamos o nosso compromisso com a confiabilidade e a qualidade dos nossos serviços.