Você já se perguntou como grandes empresas são capazes de processar uma quantidade enorme de dados de fontes diversas e relacioná-los de maneira a gerar análises e modelos de alto valor para o desenvolvimento e crescimento do empreendimento? Vamos entender o conceito de Integração de Dados.
Essa é uma peça de extrema importância para completar este quebra-cabeça, usualmente sendo realizada através de processos ETL ou ELT.
Qual é o conceito de Integração de Dados?
Para entender o conceito de Integração de Dados, precisamos falar sobre ter dados disponíveis no tempo, local e formato corretos, de forma segura, confiável e de acordo com a demanda e critérios solicitados.
É a partir de processo de Integração de Dados que os dados provenientes de várias fontes podem se deslocar em aplicações, sistemas e estruturas diferentes, de forma a sempre manter as informações consolidadas.
A movimentação realizada durante o processo de Integração de Dados garante a disponibilidade de todos os dados da organização para todos os serviços e sistemas, sendo fundamental para a gestão da informação do empreendimento e para a tomada de decisões embasada em dados históricos, limpos, consolidados e de múltiplas fontes.
Com o aumento na quantidade e diversidade do formato de dados, o processo de integração aparece como importante etapa na metodologia de inteligência de negócio, uma vez que permite que os dados de múltiplas fontes e tipos sejam representados em um formato comum após passarem por transformações e combinações para atingirem uma estrutura definida.
Leia também:
Qualidade de Dados, COVID-19 e boas práticas
Integração de dados: como a Inglaterra subnotificou quase 16.000 casos de Coronavírus
Integração de Dados e Ética
De acordo com o DAMA-DMBOK, a integração de dados apresenta desafios éticos uma vez que os dados fluem entre sistemas diferentes. Se esse processo não for feito com atenção e detalhamento, é possível que os dados passem por manipulações ou transformações antiética ou até mesmo ilegais.
Para garantir a ética e transparência é preciso ter conhecimento da origem e Linhagem dos Dados, além de manter documentações em dia.
Conceito de Integração de Dados: ETL
A realização de um processo de integração de dados eficiente aumenta a consistência e transparência dos dados, permite a criação rápida de relatórios mais flexíveis e de acordo com os padrões e necessidades do negócio e também auxilia a identificar problemas na qualidade dos dados.
Para entender o conceito de integração de dados, precisamos estar familiarizados com 3 letras: ETL.
ETL é um acrônimo para as palavras em inglês “Extract, Transform and Load”. Vamos entender melhor o que cada etapa significa?
Extract
A extração dos dados de diversas fontes pode ser feita, gerando um arquivo final que será utilizado nos próximos passos. Podem resultar arquivos de diversos formatos (csv, xml, txt, etc) e extraídos através de APIs, queries, etc.
Transform
Nessa etapa do processo de integração de dados, os registros oriundos das fontes são modificados para atenderem regras, requisitos e estruturas definidos com a equipe de negócio e usuários finais dos dados, garantindo consistência aos dados. É fundamental que esse processo de transformação seja sistemático, ou seja, as mesmas regras devem ser aplicadas todas as vezes que o processo correr!
Pode conter apenas um processo de limpeza simples ou também incluir regras condicionais, agregações, derivações, filtros, padronizações, divisão de uma coluna em outras, mudanças de formato e lookups (um tipo de mapeamento em que um valor é dado como entrada e recebe-se outro de saída).
É interessante acrescentar também processos de validação de dados, por exemplo, conferir se o campo de número de telemóvel contem apenas números e a quantidade correta de caracteres, se a data de uma transação já realizada não está no futuro. Essas validações são crucias principalmente se o método de entrada de dados for manual ou sem critérios.
Pode ser criado também um processo que identifique os erros existentes e crie um novo ficheiro com essas informações.
As transformações devem ser pensadas de acordo com as necessidades do negócio e do objetivo final do uso dos dados.
Load
O carregamento dos dados tratados para o usuário final pode ser realizado em um novo ficheiro ou com o carregamento em uma base de dados, por exemplo. Podem ser carregados apenas os registros novos/alterados (incremental load) ou todos os registros (full load).
Com os dados tratados, eles podem ser utilizados para criar relatórios, dashboards, soluções de inteligência artificial ou o que for necessário!
Dica sobre Integração de Dados
Ao criar um processo de integração de dados, alguns pontos devem ser discutidos entre as equipas envolvidas. É preciso definir e deixar registrado na documentação as etapas do processo, quais são os input/outputs de cada atividade, a periodicidade do processo, como gerir a recuperação em caso de falhas e o detalhes sobre o arquivamento dos ficheiros.
O desenvolvimento de processos de integração de dados de qualidade são capazes de reduzir custos e tempo de processamento, de forma a permitir que os dados sejam utilizados com maior facilidade, segurança e rapidez para trazer benefícios ao empreendimento.
Além disso, os processos, em especial as transformações, devem ser sistemáticos. Isso significa que devemos ter uma estrutura “generalizada”, que pode ser repetida de forma íntegra para diferentes arquivos ou fontes de dados que sigam um determinado padrão.
Garanta a escalabilidade do seu processo, seja para a inclusão de novas fontes de dados, formatos de ativos de saída ou mudança nas transformações.
Conceito de Integração de Dados: ELT
Para ficar ainda mais por dentro do conceito de integração de dados, conheça também o conceito de ELT.
Sim, ainda tem mais e você não leu errado: agora uma nova abordagem está surgindo, mais voltada para serviços em nuvem e aproveitando que o espaço de armazenamento da dados é cada vez maior, mais barato e seguro.
Como o nome diz, no ELT, primeiro carregamos os dados e depois os transformamos.
O ELT é interessante quando o sistema de destino dos dados tem uma performance melhor do que a fonte de dados ou do que as aplicações intermediárias de transformação. O objetivo é desagrupar o carregamento das transformações, aumentando a velocidade e performance do processo como um todo.
Também é uma abordagem preferencial para processar grandes conjuntos de dados não estruturados e não relacionais, como big data. É ideal para data lakes e as transformações nos dados são aplicadas depois que os dados brutos (raw data) que são carregados no data lake. Assim, é possível guardar tanto os dados em seu formato original quanto após passarem pelo tratamento.