Falando sobre storage, mais especificamente sobre backup, uma das tecnologias mais badaladas ultimamente é a data deduplication, ou de-dup. A idéia básica é detectar redundâncias durante o backup pra reduzir drasticamente a utilização de storage pra cópia. O stream de backup é dividido em blocos e cada bloco é identificado por uma assinatura digital. As assinaturas de todos os blocos copiados são mantidas num banco de dados. Assim, quando um novo bloco tem a mesma assinatura que outro já copiado os dados em si não precisam ser salvos novamente, apenas o banco de dados é atualizado com o índice do novo bloco apontando para o mesmo local em que o anterior foi salvo.
Confesso que até há pouco eu não havia conseguido perceber como é que os fornecedores deste tipo de solução são capazes de anunciar reduções de armazenamento da ordem de 20 ou de até 50 vezes. Não me parecia possível encontrar tanta redundância assim nos dados armazenados em disco.
Mas, acabei de ouvir um podcast no qual o Curtis Preston explica direitinho como a deduplication funciona e como é possível reduzir dezenas de vezes o consumo de storage de backup. O segredo é que o backup é um processo cíclico. Uma política de backup comum é realizar um backup full de todos os discos a cada quatro semanas. Isso significa que a cada quatro semanas todos os dados de um servidor são copiados pra fita novamente. Se usarmos um sistema de de-dup, normalmente a maioria dos dados já estaria armazenada no sistema de backup e não precisaria ser armazenada novamente, como acontece atualmente com nosso sistema de fitas.
Aliás, os sistemas de de-dup normalmente utilizam disco e não fita como storage de armazenamento exatamente porque os dados redundantes precisam ser acessados de modo aleatório e não sequencial durante um restore. A utilização de disco ao invés de fita é mais cara mas tem a vantagem de permitir restores mais rápidos e simultâneos, independentemente do número de unidades de fita disponíveis no momento.
Estou achando que vale a pena.
Confesso que até há pouco eu não havia conseguido perceber como é que os fornecedores deste tipo de solução são capazes de anunciar reduções de armazenamento da ordem de 20 ou de até 50 vezes. Não me parecia possível encontrar tanta redundância assim nos dados armazenados em disco.
Mas, acabei de ouvir um podcast no qual o Curtis Preston explica direitinho como a deduplication funciona e como é possível reduzir dezenas de vezes o consumo de storage de backup. O segredo é que o backup é um processo cíclico. Uma política de backup comum é realizar um backup full de todos os discos a cada quatro semanas. Isso significa que a cada quatro semanas todos os dados de um servidor são copiados pra fita novamente. Se usarmos um sistema de de-dup, normalmente a maioria dos dados já estaria armazenada no sistema de backup e não precisaria ser armazenada novamente, como acontece atualmente com nosso sistema de fitas.
Aliás, os sistemas de de-dup normalmente utilizam disco e não fita como storage de armazenamento exatamente porque os dados redundantes precisam ser acessados de modo aleatório e não sequencial durante um restore. A utilização de disco ao invés de fita é mais cara mas tem a vantagem de permitir restores mais rápidos e simultâneos, independentemente do número de unidades de fita disponíveis no momento.
Estou achando que vale a pena.
Nenhum comentário:
Postar um comentário