Um processo comum na utilização de dados é a integração de diversas fontes diferentes em um único banco de dados.
Através de processos de integração de dados, como o ETL, essas informações são padronizadas, limpas, agregadas e transformadas de diversas maneiras até estarem aptas a serem utilizadas, muitas vezes através de sua inclusão em um Data Warehouse.
Integração de Dados na Inglaterra durante COVID-19
Um processo semelhante é utilizado pela instituição de Saúde Pública da Inglaterra (PHE) para catalogar os casos confirmados de coronavírus no país.
Cada laboratório envia o resultado dos testes realizados, junto com outras informações necessárias, e a entidade atualiza seu banco de dados com os novos casos e testes realizados. Como as informações vêm de diversas fontes, é essencial ter um processo de integração de dados otimizado.
Esse trabalho é muito importante para acompanhar a evolução da doença no país e permitir que as pessoas contaminadas sejam alertadas pelas autoridades responsáveis e fiquem em isolamento social.
Entretanto, nessa última semana, houve uma subnotificação de quase 16.000 casos devido a um problema na integração de dados.
Esse erro impactou os dados de 25 de setembro a 2 de outubro, quando 15.841 casos positivos de coronavírus não foram contabilizados.
Por exemplo, no dia 30 de setembro, os casos passaram de 7.108 para 10.157, em 31 de setembro foram de 6.914 para 11.057 e, no dia 2 de outubro, de 6.968 para 11.754 casos.
O Chefe Executivo interino da PHE afirmou haver um problema no carregamento de dados, pois alguns arquivos com resultados positivos para coronavírus excediam o tamanho suportado no sistema central da PHE.
O Primeiro Ministro Boris Johnhon também confirma que houve uma falha computacional no sistema de contagem e os dados foram truncados e perdidos, não sendo incluídos da base de dados oficial.
Qual foi o problema de integração de dados?
O processo de integração de dados realizado é muito simples, mas continha um problema grave.
A PHE criou um sistema que coleta dados de testes enviados por diversos laboratórios e os insere em templates de Excel para, então, serem cadastrados no sistema central da PHE. O formato desse arquivo final é o conhecido XLS, que suporta até 65.000 linhas.
O que aconteceu a seguir é que um dos laboratórios enviou seu relatório em um arquivo no formato CSV, um formato comum para o envio de muitos registros e sem limite de quantidade de linhas.
Os dados desse arquivo CSV foram incluído na base de dados em formato de planilha XLS, sendo seus registros adicionados nas linhas finais do arquivo XLS. Foi nesse momento que o limite de linhas do formato XLS foi atingido, deixando as quase 16.000 linhas extras para fora da base de dados.
O formato XLS começou a ser utilizado em 1987. Em 2007, o formato XLSX surgiu, com a diferença de suportar mais de 1 milhão de linhas – o que já ajudaria o pessoal da PHE.
Como um único resultado de teste ocupa diversas linhas do template, o número máximo de testes suportados por cada template era de apenas 1.400!
Sendo assim, qualquer laboratório que tenha enviado um grande número de resultados de testes poderia ter sempre seus registros incompletos!
O problema foi reparado durante o processo de carregamento de dados em dashboards.
A solução
A PHE diz que a disseminação da doença foi muito rápida e não houve tempo hábil para definir uma ferramenta mais interessante para juntar todos esses dados. Inicialmente o trabalho era feito a mão, com papel em caneta. Mesmo agora o procedimento está longe de ser realmente automatizado.
A solução foi simples: as tabelas de Excel foram divididas em diferentes “batches”, ou lotes.
E agora?
Agora, a PHE correu contra o relógio para notificar os cidadãos que tiveram resultado positivo. Eles devem ficar isolados imediatamente para evitar contaminar outras pessoas. Entretanto, devido ao atraso no contato, estima-se que até 50.000 pessoas possam ter sido infectadas nesse tempo. Tudo por causa de uma falha na integração de dados!
3 dicas para não errar na integração de dados
Escolha uma ferramenta que atenda à sua necessidade
A PHE diz que que a pandemia evoluiu muito rápido e não foi possível definir uma ferramenta de integração de dados adequada para consolidar os dados.
A escolha mais fácil foi utilizar as conhecidas planilhas, em formato XLS. Entretanto, esse formato é antiquado e pouco potente quando comparado com outras opções que já existem para lidar com grande quantidade de dados que são atualizados diariamente.
Ao saber que você irá lidar com muita informação e que, neste caso, ela cresce em grandes proporções todos os dias, você tem que definir uma ferramenta que será capaz de processar essa quantidade de dados e que pode ser escalável, se houver a necessidade.
Saiba quem é o utilizador da ferramenta
Ao mesmo tempo, a ferramenta deve ser adequada aos utilizadores. Saiba quem irá lidar com o tratamento das informações e se os responsáveis entendem as limitações da ferramenta.
Apesar de ser uma ferramenta comum e simples, se os utilizadores tivessem noção da limitação de linhas do Excel provavelmente esse erro teria sido evitado e os arquivos divididos antes de serem enviados.
Defina claramente as tarefas a serem realizadas durante a integração de dados
Integrar dados de diversas fontes pode ser um desafio. Temos que estar atentos ao formato dos arquivos que recebemos, assim como à formatação de dados dentro deles – strings, números, datas – e como eles interagem entre si.
A limpeza, transformação e carregamento de arquivos das diferentes fontes é fundamental para que todos os dados estejam padronizados e “conversem” entre si, permitindo a descoberta de padrões e insights.
Tenha sempre clareza no resultado final desejado e desenvolva o processo de integração de dados de modo que que não haja perda de informação ou do contexto dos dados.