Indisponibilidade total dos serviços

Incident Report for LivePix

Postmortem

No dia 15 de maio de 2023, às 19:00 (horário de Brasília), registramos uma falha crítica em nosso serviço Core Internal API. Essa falha resultou em uma interrupção total dos principais serviços da LivePix.

Contexto

Na manhã do mesmo dia, realizamos uma atualização no nosso cluster de produção do Kubernetes, visando integrar nodes com processadores ARM. Esses novos servidores têm a função de executar serviços que demandam pouco uso de CPU, uma medida estratégica para reduzir custos.

Nessa atualização, as imagens Docker dos serviços foram segmentadas por arquitetura (AMD64 e ARM).

Causa do Problema

A falha foi desencadeada pela imagem do Memcached, que opera como um "sidecar" no serviço Core Internal API, oferecendo cache de dados de baixa latência. Essa imagem não foi atualizada para a nova configuração segmentada, e quando o sistema iniciou novos Pods para atender à demanda de requisições do horário de pico, a imagem não foi localizada. Como resultado, o serviço Core Internal API foi interrompido completamente, afetando outros serviços que dependem dele.

Resolução

A solução do problema foi alcançada com a correção da imagem Docker do Memcached. Depois de identificar a causa do problema e aplicar a solução, o sistema voltou a operar normalmente por volta das 2:50 do dia 16 de maio.

Medidas Preventivas

Dado que o problema foi desencadeado por uma atualização do sistema, implementamos uma nova política para esse tipo de modificação. Agora, temos procedimentos mais rigorosos em vigor para garantir que situações semelhantes não voltem a ocorrer.

Agradecemos a compreensão de todos e reforçamos o nosso compromisso com a confiabilidade e a qualidade dos nossos serviços.

Posted May 16, 2023 - 12:31 GMT-03:00

Resolved

A solução do problema foi alcançada com a correção da imagem Docker do Memcached. Depois de identificar a causa do problema e aplicar a solução, o sistema voltou a operar normalmente por volta das 2:50 do dia 16 de maio.
Posted May 16, 2023 - 03:00 GMT-03:00
This incident affected: Profile, Account, Dashboard, Core Internal API, and Authentication Service.