Avançar para o conteúdo

Como criar uma Linhagem de Dados

Hoje em dia existem softwares para criar uma Linhagem de Dados de forma automatizada. Essas opções geralmente vêm acompanhada de outras ferramentas automáticas de Governança de Dados. É o caso, por exemplo, da Collibra, Manta e Octopai.

Mas você não precisa disso para começar a criar a sua própria Linhagem de Dados com o Excel ou outra plataforma de planilha eletrônica.

É claro que processos manuais dependem de mais atenção e treinamento por parte do usuário, porém, é possível criar uma planilha de fácil compreensão e criar um guia de como preenchê-la corretamente.

Você está pronto para criar a sua Linhagem de Dados?

Leia também: Linhagem de Dados

Gostou desta Ferramenta? Que tal conhecer outras?

Saiba mais sobre a Caixa de Ferramentas da Gestão e Governança de Dados!

Passo 1: Definir necessidades

Como você vai criar a Linhagem de Dados depende, como sempre, da sua necessidade e modelo de negócio.

Por outro lado, alguns pontos são fundamentais. A origem dos dados, por qual processo passam e seu destino, por exemplo, são algumas da variáveis mandatórias para a Linhagem de Dados. Sempre prestando atenção em mantermos a ordem em que cada etapa é feita para não haver confusão!

Outras informações são opcionais, como algum comentário, quem é o responsável pela etapa, quando o processo foi criado/alterado e qual a periodicidade em que ele é acionado.

Você pode criar uma única planilha e adicionar colunas de acordo com a quantidade de etapas dos fluxos, ou criar uma planilha para cada camada pela qual os dados passam.

É comum termos camadas (layers) onde os dados estão “crus” (não foram modificados após a extração); onde os dados são arquivados, onde passam por etapas intermediárias de transformação e onde os dados são preparados para a inserção em tabelas.

Se você não entendeu bem o que são as camadas, pense como se fossem pastas que você tem no seu computador. Cada pasta guarda o resultado de cada etapa do processo.

Saiba quais são as camadas que você usa e, na Linhagem de Dados, deixe claro qual dessas camadas é a entrada e a saída do processo em questão, assim como os objetos (arquivos, tabelas, listas…) de origem e resultantes após a transformação ou movimentação de dados.

Você também pode utilizar a Linhagem de Dados quando cria views ou tabelas baseadas em outras tabelas, mantendo assim documentado qual a origem dessas views e tabelas filhas.

Com isso em mente, podemos criar a nossa tabela de Linhagem de Dados!

Pela minha experiência, é interessante separar as tabelas entre as diferentes camadas para ficar mais organizado. Sendo assim, teremos diversas planilhas com os mesmos campos, porém em cada planilha a camada de origem será sempre a mesma – o destino pode variar.

Outra dica é ter uma planilha específica contendo a forma de ingestão dos dados “crus”, definindo a fonte de dados, que pode ser até manual.




Passo 2: Mãos na massa!

Agora é hora de popular a tabela de Linhagem de Dados com as nossas informações.

Pode ficar algo mais ou menos assim. Para deixar mais fácil, coloquei cores para identificar quais registros se relacionam entre cada planilha.

Observe que na Camada 1, temos 3 arquivos diferentes de saída, mas que utilizam o mesmo processo e o mesmo objeto de entrada.

Na aba Tabelas, veja que as tabelas podem ter origens de camadas diferentes, assim como nas outras abas também podemos ter destino em camadas diferentes.

Além disso a quantidade de etapas de cada processo também pode variar.

Passo 3: Alinhar a documentação

Agora que você já tem o seu arquivo de Linhagem de Dados pronto, você precisa alinhá-lo com o restante da documentação.

É interessante ter cada processo e cada objeto documentado, assim como um breve manual de como preencher a Linhagem para futuros desenvolvimentos e alterações.

Aliar a documentação com a Linhagem de Dados garante que qualquer um consiga entender na totalidade o fluxo dos dados para avaliar impactos, detectar erros, programar alterações e muito mais.

Portanto, descreva com detalhes o que é feito em cada processo e quais são os objetos (arquivos, listas, arquivos em zip…) de entrada e saída.

Quanto à documentação dos objetos, esclareça conteúdo, formato, localização no servidor, em quais processos está envolvido, alterações e qualquer outra consideração importante.

Não esqueça que na documentação é interessante manter um histórico de versões detalhando as alterações e datas!




Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *