Para que seus dados sejam confiáveis, corretos e estejam prontos para o uso em tomadas de decisões você precisa garantir a Integridade de Dados em bancos de dados.
Uma vez que a cada etapa do ciclo de vida de dados, ele pode replicado, transferido e transformado, manter a Integridade de Dados é uma tarefa constante, e o processo de mantê-la necessita de iterações ao longo do tempo para se adaptar a novas necessidades.
Sendo assim, a constante avaliação da Integridade de Dados em bancos de dados é de extrema importância para a Qualidade e Governança de Dados, de modo a garantir que temos informações corretas no local correto, garantindo a confiabilidade dos dados.
O que é Integridade de Dados
A Integridade de Dados é considerada tanto um estado dos dados, quanto a processos, regras e padrões para garantir que as Dimensões de Qualidade de Dados estão mantidas.
As Dimensões a serem avaliadas dependem das exigências do negócio, entretanto, usualmente a Integridade de Dados cobre a acurácia, validade, consistência e completude dos dados.
Em adição, a Integridade de Dados em bancos de dados tem uma relação próxima às leis de proteção de dados e segurança, uma vez que cumprir com as Dimensões de Dados impacta diretamente com esses tópicos.
Para o DAMA, Integridade de Dados é sobre garantir o significado e o valor de negócio dos dados, independente do contexto, e refletindo o status atual do empreendimento. Para o órgão, é fundamental ser capaz de detectar e reportar violações rapidamente.
Um conceito interessante de Integridade de Dados é do Food & Drugs Administration (FDA). De acordo com o órgão, Integridade de Dados está relacionada com a completude, acurácia e consistência dos dados, assim como a segurança deles para assuntos regulatórios e de compliance. Para isso, os dados devem ser ALCOA:
- Attributable — Atribuível: saber como os dados são criados ou obtidos, e por quem
- Legible — Legível: capacidade de ler e compreender os dados
- Contemporaneous — Contemporâneo: entender o estado inicial dos dados e as transformações ocorridas ao longo dos diferentes estágios de seu ciclo de vida
- Original — Original: conhecer os sistemas de origem dos dados e a capacidade de manter os dados em seu estado original
- Accurate — Acurácia: dados acurados não contêm erros e estão em conformidade com os protocolos para os quais são usados.
Importância da Integridade de Dados
Como a Integridade de Dados em bancos de dados garante a manutenção das Dimensões de Qualidade de Dados, a relevância da Integridade de Dados aparece ao garantir a confiabilidade, consistência e segurança de dados em um banco de dados.
Especialmente frente aos utilizadores dos dados que necessitam de dados precisos a qualquer momento, em um ambiente que recebe cada vez mais informações em uma velocidade maior, a Integridade de Dados deve ser prioridade dos empreendimentos.
Ainda, se considerarmos as leis de proteção de dados, pensar a Integridade de Dados é fundamental para que as organizações estejam de acordo com as exigências definidas a respeito de privacidade e proteção de dados.
A capacidade de rastrear os dados em todo o fluxo do seu ciclo de vida também pode ser comprometida com a falta de Integridade de Dados. Assim, como a possibilidade de realizar pesquisas internas e recuperar informações.
Ter a certeza de que os dados estão sendo inseridos, manipulados e (re)utilizados corretamente por todos os usuários é mais um passo para reduzir riscos.
Portanto, a medida em que mais dados são coletados e mais se depende dessas informações para a tomada de decisões, inovação e crescimento de empreendimentos, garantir a Integração de Dados é garantir segurança, acessibilidade e convicção nos dados.
Principais Riscos da Falta da Integridade de Dados
Os riscos com Integridade em bancos de dados acontecem quando os dados apresentam problemas em sua definição. Existem 2 principais riscos que a falta de Integridade de Dados:
- Confiabilidade: o problema mais comum e que afeta diretamente o negócio e os usuários de dados, que passam a não confiar nas informações e tomar decisões sem apoio nos dados. Este erro pode se apresentar como dados duplicados, sem acurácia e que não se consegue rastrear o fluxo até a sua origem. Corrigir este erro depende de muito tempo e recursos, além de que, as decisões tomadas com dados ruins geram ainda mais custos.
- Legislações e Regulamentos: questões de Integridade de Dados dificultam o cumprimento de critérios e regulações de privacidade e segurança de dados. Além de deixar dados expostos, o empreendimento terá que arcar com multas altas e que comprometem o negócio.
Tipos de Integridade de Dados
- Física: garantir que os dados se mantenham corretos e “inteiros” onde quer que estejam guardados e quando são recuperados. Problemas comuns que afetam esse tipo de Integridade são cortes de energia, desastres naturais e ataques de hackers.
- Lógica: usualmente, a mesma informação é utilizada em diferentes bancos de dados e de formas diversas. Garantir a Integridade Lógica significa proteger os dados e as suas relações, como por exemplo através de chaves primárias, e manter o armazenamento e uso correto dos dados. Relaciona-se fortemente com as dimensões de acurácia e unicidade.
Como manter a Integridade em Bancos de Dados
Existem práticas que podem ser adicionadas aos processos de forma a evitar problemas de Integridade de Dados:
- Validação de Dados de Entrada: acrescentar etapas de validação para garantir que as dimensões de dados estão sendo cumpridas antes da ingestão de dados. Pode-se, ainda, adicionar avisos quando algum critério não for cumprido para que seja averiguado individualmente se a ingestão deve ser feita ou mais.
- Iniciativas de Gestão de Dados: a Gestão de Dados inclui iniciativas como o uso de ferramentas de Qualidade e Governança de Dados que permitem avaliar o fluxo de dados, causa raiz de erros e garantir que políticas de segurança e qualidade estão em dia. Veja livros iniciantes no tema.
- Backup: manter o backup em dia assegura a segurança de dados tanto no caso de perdas quanto no caso de alterações inesperadas nos dados ou se forem corrompidos. O backup permite recuperar versões recentes de documentos e bases de dados.
- Remoção de Duplicados: além de garantir a integridade dos dados, é importante na segurança e privacidade de dados, reduzindo a chance de acessos não autorizados através de outros bancos de dados.
- Uso de Logs: utilizar logs com informações importantes como hora, data, nome de bases de dados envolvidas a cada etapa, queries, etc, auxilia a manter o histórico de como e quando os dados podem ter sido alterados, adicionados ou removidos.
- Controle de Acesso: também relacionado com a segurança, o controle de acesso impede que pessoas não autorizadas acessem determinados dados ou documentos uma vez em que não há necessidade de acessá-los para conduzir seu trabalho. Essa prática reduz a possibilidade de adulteração ou exclusão de dados sem intenção.
- Linhagem de Dados: manter controle sobre o fluxo de dados é útil não apenas para auditorias, mas também para compreender por onde os dados se movem. No caso de algum problema de Integridade de Dados, ter acesso a essa ferramenta facilita a busca pela causa raiz da questão.
- Cultura e Literacia de Dados: manter uma cultura alinhada com a Integração e Literacia de Dados faz com que os colaboradores entendam a importância da Integridade e como identificar e resolver problemas relativos ao tópico.
- Detecção de Erros: manter um monitoramento de detecção de anomalias e erros. Identifique a causa raiz e busque a solução.
- Ciclo de Vida do Desenvolvimento: ter boas práticas e processos a serem seguidos desde a fase de desenvolvimento e implementação, com testes e verificações em todos os níveis, evita que erros cheguem ao ambiente de produção.
- Auditorias: criar “trilhas” com os passos percorridos pelos dados ao longo do seu ciclo de vida e realizar auditorias periodicamente ajuda a garantir a conformidade dos dados.
- Documentação: este ponto refere-se a todos os itens anteriores. Documentar as opções escolhidas e os resultados esperados auxilia a validação dos dados e sua segurança. Inclua também como os dados são usados/transformados, para que e por quem.
O que não é Integridade de Dados
A Integridade em bancos de dados pode ser confundida por alguns termos que, apesar de não serem sinônimos, são complementares a ela: Qualidade de Dados e Segurança de Dados
Relação com Qualidade de Dados
De modo resumido, a Qualidade de Dados é uma das peças para atingir a Integridade de Dados uma vez que visa avaliar se os bancos de dados atingem critérios mínimos especificados.
Através de processos e verificações de Qualidade de Dados e suas dimensões, conseguimos avaliar, corrigir e melhorar as etapas de ingestão, transformação, integração e armazenamento de dados, consequentemente, impactando positivamente a Integridade em bancos de dados.
Sendo assim, processos de Integridade de Dados incluem aspectos de Qualidade de Dados, indo mais além, informando regras de ingestão, armazenamento e transferência de dados, por exemplo.
Relação com Segurança de Dados
A Integridade de Dados se beneficia da Segurança de Dados, uma vez que essa garante que apenas determinadas pessoas tem acesso aos dados, evitando que estes sejam alterados ou corrompidos.
As dimensões de acurácia e validez são as mais beneficiadas.
Contudo, a Segurança de Dados sozinha não garante a Integridade de Dados por se focar em proteger os dados de acessos externos. Sendo assim, não inclui muitos processos que visam manter os dados íntegros ao longo do tempo.
Como a Integridade de Dados pode ser afetada
- Erros humanos: usualmente causado pela entrada incorreta de dados. Isso pode-se dar por uma digitação incorreta, inserção duplicada de registros, falta de procedimentos claros e, até mesmo por motivos intencionais. É também um dos fatores para o Problema do Valor Nulo.
- Hackers e vírus: ataques virtuais podem impactar bases de dados. Por exemplo, alterando, removendo ou tornando dados inacessíveis.
- Integração de dados: problemas durante a ingestão e transformação de dados, fazendo com que registros sejam inseridos de forma errada ou no local incorreto.
- Servidores, aparelhos e conexões: caso haja falha em servidores ou aparelhos de coleta/envio de dados, estes podem não ser encaminhados de forma completa ou totalmente correta, levando a erros.