Disaster Recovery
A imagem diz tudo, na grande maioria dos casos. Hoje fizemos uma simulação de falha num servidor de alojamento. O procedimento em si, deu para testar a nossa preparação para repor os serviços em caso de falha.
O servidor escolhido para ser reposto, é um Quad Core, 8 GB RAM, 2 x discos (hotswap) de 1 TB em RAID1, com o sistema Operativo Linux (CentOS 5) e o painel de controlo cPanel, e aloja cerca de 250 contas de alojamento da Efeito.net. Esta é uma configuração quase que padrão para os servidores de Alojamento da Efeito.net.
Além do RAID, standard em todos os servidores utilizados para alojamento, são feitos diáriamente backups com a ferramenta da cPanel para um terceiro disco no mesmo servidor, e ainda temos activos em todos os servidores, o sistema de Continuous Data Protection da R1SOFT. Este sistema, permite-nos ter backups integrais do servidor, e repor rapidamente um ficheiro apenas, ou fazer um “Bare Metal Restore” de todo o servidor em caso de falha grave (por exemplo, caso de falha dos 2 discos, ou até mesmo de sistema operativo comprometido), com até 10 pontos de restauro.
Temos hardware suplente preparado para ser usado, sem haver a necessidade de estar a analisar problemas de hardware com o servidor em offline. O procedimento estabelecido em caso de falha de hardware de um servidor é simples, tirar os discos, colocar noutro barebone com as mesmas características, arrancar o novo, e verificar posteriormente quais os problemas que o outro servidor tinha. Isto sem haver grandes downtimes.
A simulação de hoje, pegamos num servidor suplente, arrancamos o servidor com o CD de recuperação da R1SOFT, efectuamos o Bare Metal Restore, e passado 1:30 aproximadamente, o servidor encontrava-se totalmente reposto.
Conclusão. Mesmo com uma falha grave (neste caso foi mesmo como se o servidor tivesse deixado de existir) conseguiu-se repor um servidor idêntico, com o backup da noite anterior, em menos de 2 horas de downtime.