segunda-feira, 13 de janeiro de 2014

Bug em update de banco de dados causou instabilidade no Dropbox

Reprodução
O serviço de armazenamento na nuvem Dropbox ficou instável para muitos usuários neste último fim de semana. E os problemas não tiveram nada a ver com invasões de crackers ou ataques DDoS, mas sim com um bug na atualização do SO dos servidores, como explica um post do engenheiro e chefe de infraestrutura Akhil Gupta no Dropbox Tech Blog.

De acordo com o texto, tudo começou com uma manutenção agendada feita pela equipe do serviço na tarde de sexta-feira. Nela, seria atualizado o sistema operacional de algumas das máquinas que funcionam como bancos de dados. Tudo seria auxiliado por um script de upgrade, que confere se não há dados ativos em cada computador antes de iniciar a atualização.

O problema é que, como explica o texto, “um bug súbito no script fez com que o processo fosse feito em um pequeno número de máquinas ativas”. Na teoria, isso não seria o suficiente para derrubar o serviço – o Dropbox conta com milhares de bancos de dados, e cada um possui três máquinas, sendo uma “mestra” (Master) e outras duas “escravas” (Slaves), para redundância. Só que a falha acabou por afetar grupos inteiros, “matando” o serviço.

De acordo com Gupta, a equipe tentou restaurar o funcionamento recuperando os dados por backups. O sucesso foi relativo, já que a maior parte das funcionalidades voltou ao ar em cerca de três horas. No entanto, “a extensão de alguns bancos de dados atrasou a recuperação”, o que fez com que o processo só fosse concluído de fato na tarde de domingo.

Apesar de a falha ter atingido servidores, o Dropbox garante que os documentos, fotos e vídeos dos usuários nunca estiveram em risco. “Esses bancos de dados não contêm informações de arquivos”, segundo o post do engenheiro. Eles são usados para fornecer recursos, “como o compartilhamento de álbuns, uploads da câmera e funcionalidades da API”.

Gupta ainda usou o post para dizer que a falha não deverá se repetir. Uma camada extra de checagem foi adicionada ao processo de atualização, de forma que a situação das máquinas passará a ser verificado também localmente – assim, computadores com processos em execução por “recusar operações potencialmente destrutivas”.

Mas caso isso não resolva e um acidente do tipo volte a acontecer, a equipe diz ter desenvolvido uma ferramenta que acelera a recuperação de backups MySQL. O código fonte dela será liberada para outras pessoas em breve, segundo o engenheiro. Aliás, o Dropbox deve voltar a funcionar normalmente ainda nesta segunda-feira, com exceção de alguns recursos de fotos, segundo a VP de engenharia do serviço Aditya Agarwal.

Nenhum comentário:

Postar um comentário