Um passo essencial para garantir a Qualidade de Dados de qualquer desenvolvimento é realizar testes que avaliem a robustez do seu trabalho.
Por quê criar testes ajudar a garantir a qualidade de dados?
Os processos de integração e transformação de dados podem ser acompanhados de regras de negócios e procedimentos complexos, uma vez que existem as mais diversas origens e tipos de dados.
Os testes são importantes tanto na fase de desenvolvimento quanto na implantação dos modelos em ambiente de produção.
Na fase de desenvolvimentos, é importante analisar a robustez do trabalho e como a lógica implantada lida com as mais diversas situações. Testes completos e abrangentes vão reduzir o retrabalho e problemas inesperados em produção.
Já nos seus pipelines de produção, para garantir a Qualidade dos Dados e identificar problemas antes que causem impactos em análises, você pode adicionar testes diários e contínuos, sempre alinhados com as expectativas e objetivos do empreendimento.
Vantagens de criar testes para garantir a Qualidade de Dados
- Reduz a necessidade de correções posteriores, quando os dados já estão afetados
- Aumenta a confiança nos dados, incentivando o seu uso e a descoberta de novas formas para gerar valor com eles
- Reduz a quantidade de bugs e retrabalhos no desenvolvimento
- Com documentação apropriada, os testes ajudam a entender o comportamento esperado dos processos e a definir resolução de problemas
- Acelera a aderência da mentalidade focada em dados dentro do empreendimento
- Garante que todas as etapas do ciclo de vida dos dados resultam em informações íntegras e cumprindo com as Dimensões de Qualidade de Dados
- Existem ferramentas que integram testes ao processamento diário dos dados, permitindo que qualquer problema seja reportado rapidamente
Quais testes posso utilizar para garantir a Qualidade de Dados?
Validação do tipo de dado
É sempre interessante garantir que cada atributo tenha o tipo adequado ao longo de todos os registros. Isso significa que todas as datas são realmente datas, número são números e caracteres são caracteres.
Esse tipos de teste é importante especialmente na ingestão de novos dados ou integração de fontes de dados diferentes, onde podem surgir tipos de dados inconsistentes ou incorretos. É comum que tipos de dados inconsistentes gerem erros ao longo do processo.
Completude ou “não nulos”
Determinados atributos são essenciais para a análise e processamento de dados e não podemos ter seus valores definidos como nulos ou sem nenhum valor. É o caso, por exemplo, de identificadores importantes (chaves primárias e secundárias) e carimbos de data e hora. Leia sobre o Problema do Valor Nulo.
Valores únicos
Muitas bases de dados contam com identificadores ou campos que devem conter valores únicos, como é o caso de nome de usuários ou número de registros de produtos.
Eventualmente vezes a combinação de registros entre diferentes tabelas ou bases de dados podem acabar duplicando dados ou gerando linhas adicionais com informações erradas. A validação de valores que devem ser sempre únicos é essencial também por esse motivo.
Valores aceitos
Visando padronizar valores e reduzir problemas de análises causados por essa falta de padronização, é possível definir testes que avaliam o conteúdo de cada registro.
A ideia é descrever quais possibilidades de valores são aceitos e, a partir daí, apenas os registros que contenham esses valores serão inseridos no banco de dados.
Integridade da Referência
Antes de um modelo ser construído pode-se realizar testes de integridade de referência que irão confirmar a existência das colunas e da tabela em si da qual o seu o seu modelo depende antes iniciar a construção.
Ferramentas que facilitam a criação de testes
dbt (data build tool)
dbt (data build tool) é uma ferramenta de linha de comando baseada em SQL e que oferece a opção de utilizar testes nativos à ferramenta.
Com o dbt é possível criar pipelines que realizam esses testes que garantem a qualidade de dados em todos os seus modelos e realizar verificações gerais ou personalizadas para garantir que os modelos são construídos como esperado.
Você pode aplicar facilmente testes genéricos em todos os seus modelos para verificações gerais de qualidade de dados, assim como, desenvolver testes personalizados para garantir que regras de negócios específicas sejam seguidas.
Great Expectations
O Great Expectations é uma ferramenta de validação de dados de código aberto.
Com parâmetros pré definidos, você pode definir a “expectativas” que deseja ter com os seus dados e verificar se elas são atendidas.