O Problema do Valor Nulo gera o caos na Qualidade de Dados sem você nem perceber!
O pior de tudo é que é uma questão controversa e recorrente no mundo nos dados.
Mas pode ficar tranquilo que temos várias formas para lidar com isso! Vamos lá?
O que significa um valor nulo?
Um valor ainda a ser medido/definido?
Um valor que não existe e nunca vai existir?
Um valor que não é atribuído a esse registro no momento, mas um dia pode vir a ser?
A mesma coisa que zero?
Tem diferença quando o valor é nulo ou realmente temos um texto escrito “Nulo”?
Maneiras de lidar com valores nulos, ou informações faltantes.
Porém, é muito comum que esse detalhe seja ignorado quando se desenha uma aplicação, base de dados ou processo.
Menos comum ainda é pensar nessa questão no momento da coleta dos dados, ou oferecer algum tipo de treinamento para quem vai realizar essa tarefa.
A principal consequência disso é que cada pessoa acaba por tratar os valores nulos da forma que faz sentido para ela mesma naquele momento, gerando…
UM PROBLEMÃO NA QUALIDADE DE DADOS, em especial na dimensão de acurácia. Para saber mais sobre as Dimensões de Qualidade de Dados, leia o ebook gratuito aqui.
Leia também:
Governança de Dados do Spotify
Inteligência Artificial Responsável
Por que o Valor Nulo aparece?
O valor nulo pode significar, por exemplo:
– o fornecedor dos dados não quer dar essa informação
– a pessoa que inseriu os dados não sabe o valor correto ou, simplesmente, errou
– o registro em questão não necessita da informação desse campo
– o valor será informado posteriormente
– processo longo e complicado, levando a inserir informações incompletas
Na maior parte dos casos, vamos encontrar essa falta de informação sendo representada de diversas maneiras no mesmo banco de dados, dificultando o entendimento do real valor do nulo.
E pode piorar…
No caso de um campo obrigatório em que ocorre algum dos casos anteriores, qual valor deverá ser informado?
Numa mesma tabela você pode encontrar valores como:
- ?
- Não informado
- Não sei
- Não Aplica
- N/A
- 999999
- ” “
E quando um valor nunca poderia ser nulo mas… é?
A minha definição de nulo é diferente da sua.
Imagina uma organização grande com diversas fontes de dados que são criados de maneiras diferentes e manipuladas por pessoas diferentes? A chance de dar algum problema é gigante.
A dimensão de Acurácia sofre na hora! Não podemos comparar o valor que temos com a realidade.
Como Resolver o Problema do Valor Nulo?
A parte é boa é que temos muuuuuitas opções de como resolver o Problema do Valor Nulo, queira você resolver esse problema no seu empreendimento ou queira você evitá-lo desde o começo!
1. Confira se você tem o Problema do Valor Nulo no seu banco de dados
Faça uma perfilagem de dados. Em outras palavras, avalie os valores distintos para o atributo que você deseja analisar. Dessa maneira, você vai entender exatamente o que está acontecendo no seu banco de dados e conhecer o tamanho do seu problema.
2. Defina qual o significado do Valor Nulo
Cada linha de negócio, base da dados ou aplicação pode ter um significado diferente para o Valor Nulo. Desde que no mesmo local ele signifique a mesma coisa e todos sigam essa definição, tudo bem.
Você pode inclusive não permitir valores nulos – mas defina quais os valores permitidos.
Pode ser que você tenha que envolver analistas de negócios e gestores para alinharem essa informação.
3. Defina o que deve ser feito no caso de um campo ser realmente nulo
Você pode escolher simplesmente deixar o valor nulo, ou pode definir um valor padrão como “Não foi informado” ou “Não fornecido”.
Não existe resposta certa, o que importa de verdade é você ter as regras bem definidas e de fácil acesso para consulta.
4. Pense no seu processo como um todo
Como está o processo de coleta de dados? É simples e claro? A pessoa que insere os dados tem treinamento? Você poderia usar listas “dropdown” apenas com as opções validas?
Você tem um processo de validação na coleta ou durante o processamento dos dados?
Que tal utilizar transformações de dados para converter a entrada de um valor nulo no padrão correto?
Ou, ainda, o seu banco de dados têm verificações e tipos de dado compatíveis com o esperado?
5. Governança de Dados
Você tem um Glossário de Negócios ou um Dicionário de Dados atualizado e com as clarificações necessárias, onde qualquer um pode entender o significado do valor nulo?
Se não, agora pode ser a hora de começar a montar o seu!
Pingback: 6 Dimensões de Qualidade de Dados - Diário de Dados