Garbage in, Garbage out – Lixo entra, Lixo sai
Essa é uma frase muito conhecida no mundo dos dados e resume bem a importância da qualidade dos dados que utilizamos em nossas análises.
Se criamos nossos modelos com dados “lixo”, ou seja, com muitos registros duvidosos, inconsistentes e incompletos, teremos análises e conclusões “lixo” e enviesadas, que dificilmente resolverão nossos problemas.
Ter dados de qualidade e consistentes é decisivo para tomar boas decisões.
Para garantir as melhores práticas em qualidade de dados, devemos prestar atenção à coleta, limpeza e tratamento dos dados. Cada projeto requer um tipo diferente de tratamento e temos que analisar o objetivo da análise, a forma de coleta dos dados, o nível de tolerância de erros e os usuários que terão contato com as informações.
COVID-19: a falta de melhores práticas em qualidade de dados
Vamos analisar os problemas na qualidade de dados encontrada por pesquisadores em Portugal e que podem ter impactado significativamente nas análises e previsões. As referências de estudos e reportagens estão no final do post.
Portugal
Um estudo analisou a qualidade de dados das bases da Direção Geral da Saúde e do Sistema Nacional de Vigilância Epidemiológica.
A Faculdade de Medicina da Universidade do Porto identificou registros de infectados por COVID-19 em Portugal com erros diversos. Alguns dos exemplos citados são:
- três homens e uma mulher de 97 anos grávidos,
- um paciente com 134 anos,
- um diagnóstico no dia 50 de maio,
- 2 pacientes internados com estadia negativa e
- 19 casos confirmados em datas anteriores ao primeiro caso oficial no país.
Também um erro muito grave foi na variável “Data de Recuperação”. Neste atributo, haviam apenas 3 datas diferentes, mesmo que essa data pudesse se referir a um intervalo de 120 dias. Assim, 6772 pacientes tinham como data de recuperação o dia 3 de abril; 1032 pacientes, 25 de maio e 242 pacientes, 26 de maio.
Em relação à completude dos dados, houve relato de variáveis com mais de 90% de registros faltantes, como no caso da data do primeiro teste positivo, variável extremamente relevante para entender o comportamento do vírus no país.
Foram detectadas inconsistências entre os dados da Direção Geral da Saúde (DGS) e o Sistema Nacional de Vigilância Epidemiológica: “Não foram comunicadas quaisquer datas de mortes em Junho no conjunto de dados de Agosto da DGS, apesar das 155 mortes relatadas no relatório público durante este mês”.
Outro problema nos dados foi que da primeira para a segunda leva de dados informados, 40% pacientes tiveram a resposta à pergunta sobre doenças pré-existentes alterada de “não” para “não sei”. Os pesquisadores sugerem que talvez uma resposta em branco tenha sido registrada como “não” e só depois corrigida para o formato correto.
Outra questão levantada é a forma de coleta de dados. Os médicos devem preencher pelo menos 3 plataformas diferentes com muitas variáveis a serem descritas. Além disso, no contexto que estamos, os médicos estão muito mais preocupados em atender e salvar os pacientes. O excesso de burocracia não ajuda em nada neste caso.
Também foi apontado que os recursos de preenchimento de dados não eram muito úteis. Um exemplo é uma lista de mais de 100 opções sobre características demográficas do paciente.
Os pesquisadores também relataram que quando o paciente se recuperava, apenas a data da saída era registrada, não sendo informado o estado do paciente.
Não havia métodos de validação dos dados (como avaliar o diagnóstico de uma doença antes do nascimento do paciente ou a data de saída do hospital antes da entrada) ou variáveis mandatórias. Esse é um grande problema que vai contra melhores práticas de qualidade de dados.
Ainda, alguns campos tinham respostas categóricas não definidas. Por exemplo, no caso da avaliação da severidade da dos sintomas, deve ser escolhida uma resposta entre “desconhecida”, “severa”, “moderada” ou “não aplicável”. O que significa cada uma dessas variáveis? Como classificar sintomas amenos?
Durante a atualização das bases de dados, o formato de alguns campos foi alterado, e outros campos foram excluídos ou incluídos. Na primeira versão, havia um campo sobre o status do paciente, que foi transformado em dois campos, data de morte e data de recuperação. Também a idade, foi primeiro definida como a idade no momento em que a primeira notificação de COVID-19 foi registrada, e, depois, a idade em que o paciente foi detectado com COVID-19.
Também houve problemas na anonimização dos dados. Era possível identificar 90% dos mortos através do cruzamento de bases de dados com elementos externos.
Os responsáveis pelos achado são claros que esse tipo de erro pode comprometer a validade de análises, com possíveis implicações graves no contexto de pandemia. Eles também reforçam que a equipe tentou se envolver na recolha e tratamento de dados mas não foram bem recebidos.
Melhores práticas em qualidade dos dados
Dados errados levam a conclusões erradas e, consequentemente, decisões e ações que não resolvem o problema – especialmente com o volume e velocidade de dados que estamos lidando na pandemia.
Então como podemos tentar garantir a qualidade, completude e consistência dos dados? Baseado nos artigos dos pesquisadores e na minha experiência, confira aqui algumas dicas de melhores práticas em qualidade de dados:
- Simplifique processos
Uma maneira boa prática em qualidade de dados para garantir a consistência e completude dos dados é simplificar a forma com que eles são coletados e inseridos.
Por exemplo, na coleta manual, padronize formulários e processos de coleta, ofereça opções de múltipla escolha simples, garanta o entendimento das questões, mantenha a objetividade do que precisa ser preenchido e tenha atenção às opções de respostas abertas ou qualitativas.
Durante a inserção dos dados, busque criar um programa ou métodos com layout simples, campos bem delimitados, letras legíveis e na mesma ordenação e formato do formulário manual.
Para os dois casos, tenha manuais que possam ser consultados em caso de dúvida e que expliquem detalhadamente os procedimentos e definições utilizados.
2. Monitorização constante
Crie ferramentas ou processos que realizem a gestão da qualidade dos dados, garantam que novos registros tenham sido atualizados corretamente ou se houve algum erro, falta de dados mandatórios ou inconsistência na entrada dos registos. Não esqueça que é necessária também a participação humana para monitorizar os resultados desses tratamentos, recuperar em caso de determinadas falhas e otimizá-los.
3. Sensibilização e formação dos usuários
É importante que os profissionais sejam treinados para trabalhar com dados e estejam cientes da importância de informações confiáveis e precisas para realizar análises e oferecer uma melhor assistência para os pacientes, a organização e a comunidade.
Para garantir melhores práticas em qualidade de dados, é de extrema importância que os responsáveis pela coleta de dados entendam o porquê da coleta, como a realizar da melhor forma e como isso impacta futuras investigações.
4. Processos ETL
Os processos de extração, transformação e carregamento de dados são de extrema importância para manter a qualidade dos dados. Leia mais sobre ETL aqui e aqui.
5. Feedback
Profissionais de dados devem colaborar com os profissionais do tema a ser estudado. Colaborações multidisciplinares desempenham um papel crítico para assegurar padrões mínimos de qualidade. Essa é uma boa prática de qualidade de dados que deve ser utilizada em todas as etapas de um projeto de dados.
6. Documentação
Essa boa prática para qualidade de dados é fundamental e vai minimizar diversos problemas ao longo do desenvolvimento de um projeto de dados.
Mantenha sempre a documentação de todos os procedimentos atualizada. Alterações de definições, metodologias, software ou qualquer parte do processo deve estar descrito, de forma a criar um histórico de toda e qualquer mudança nos dados.
O que mudou? Porquê? Qual o impacto prático? O que deve ser feito a partir de agora? As alterações tem efeito a partir de quando? Existe alguma limitação? O que deve ser feito com os registros antigos? Quem é o responsável pela alteração? São algumas das perguntas que devem ser respondidas nestes documentos.
Referências:
https://www.publico.pt/2020/11/09/ciencia/noticia/homens-gravidos-doente-134-anos-dados-portugal-covid19-1938509 / https://www.publico.pt/2020/08/08/sociedade/noticia/investigadores-dgs-deu-dados-erros-homens-gravidos-dgs-desdramatiza-1927526 / https://www.medrxiv.org/content/10.1101/2020.11.03.20225565v1.full-text
Pingback: Como criar Testes para Garantir a Qualidade de Dados - Diário de Dados