Avançar para o conteúdo

Metodologias CRISP-DM e SEMMA

As metodologias CRISP-DM e SEMMA foram desenvolvidas visando a mineração de dados, podendo ser utilizadas para exploração de dados e desenvolvimento de modelos de machine learning.

Essas metodologias seguem práticas semelhantes e podem ser usadas em diversos tipos de ferramentas e modelos de negócio.

As metodologias CRISP-DM e SEMMA podem ser adaptadas para processos ágeis, visando a criação do produto mínimo viável e posterior aprimoramento dos resultados a partir de iterações dos passos.

CRISP – DM (Cross Industry Standard Process for Data Mining)

1. Business Understanding – Entendimento do Negócio

O primeiro passo da metodologia CRISP-DM é crucial visto que é partir do entendimento correto do negócio que os demais passos serão pautados. Clareza é fundamental, não se deve existir dúvida em relação aos objetivos e resultados.

O primeiro passo é dividido em determinar objetivos de negócio, avaliar a situação, determinar objetivos do modelo e produzir o plano de negócio.

Converse com as pessoas responsáveis pela demanda e que irão trabalhar com o resultado final do seu modelo. Entenda a motivação e a necessidade do trabalho, terminologias, além de qual é a situação atual. Algum outro modelo já foi proposto? Atualmente alguma solução é utilizada? Porque há necessidade de mudar? Combine critérios e métricas de sucesso.

Esse passo da metodologia CRISP-DM também passa por entender quais recursos estão disponíveis, os riscos, os requerimentos e possíveis gargalos. Defina expectativas, avalie limitações, tire dúvidas.

Com todas essas questões resolvidas, produza um plano de projeto, com os passos a serem desenvolvidos, objetivos intermediários e respectivas métricas, junto com técnicas e ferramentas a serem utilizadas. Esse plano pode ser revisto ao longo do desenvolvimento.

Nunca deixe nada por subentendido ou assuma alguma premissa.




2. Data Understanding – Entendimento dos Dados

Esta etapa da metodologia CRISP-DM é dividida em coletar, descrever, explorar e avaliar a Qualidade os dados. Conheça mais sobre Qualidade de Dados aqui.

Adquira os dados, seja por meio de coleta ou tendo acesso à base de dados existente. Será preciso integrar dados de diferentes fontes? Carregue os dados na ferramenta a ser utilizada. Houve algum problema durante a realização desses passos?

Descreva os dados de forma superficial em relação ao tipo, quantidade, estatísticas descritivas básicas, identifique os campos existentes e se os dados são suficientes para cumprir os requerimentos.

A exploração pode ser feita através de queries, visualizações ou relatórios. Inclua a distribuição das variáveis, relação entre pares ou pequenos grupos de atributos, agregações e outras análises que visem os objetivos elencados no primeiro passo e que podem ser importantes para a transformação de dados no passo seguinte.

Em relação à qualidade dos dados, avalie se os dados estão completos, se é preciso alguma correção, o quão comum é encontrar erros e como lidar com esses erros e os famosos “missing data”. Elenque os passos dados. Tenha sempre em mente que muitos desses problemas tem diversas soluções, mas a melhor opção sempre estará dependente dos objetivos e conhecimento do negócio.

3. Data Preparation – Preparação de Dados

Aqui vamos selecionar, limpar, construir, integrar e formatar os dados.

O resultado dessa fase da metodologia CRISP-DM será utilizado para criar os modelos.

Selecione os dados a serem utilizados, de acordo com o que foi analisado no passo anterior, capacidade de processamento, tipos de dados. Lembre que esse passo deve ser feito tanto para colunas quanto para linhas. Documente a racionalização deste processo.

A limpeza de dados tem muita relação com o passo de avaliar a qualidade de dados. Talvez você tenha que selecionar subsets menores apenas com dados limpos ou preencher campos vazios com valores padrões ou resultados de modelagens.

A construção se refere à criação de novos atributos ou registros, transformação de valores de atributos (normalização, reescala, encode de variáveis categórias, por exemplo), criação de atributos derivados (por exemplo, se temos área e comprimentos, podemos obter o volume). Documente todas as modificações.

A integração de dados é combinar tabelas com diferentes informações sobre o mesmo objeto (por exemplo, compras e informações pessoais de um mesmo cliente). Também podem ser incluídos novos registros. Agregações também se enquadram neste passo.

A formatação de dados pode ser necessária de acordo com requerimentos das ferramentas, mas não pode alterar o significado dos dados.

4. Modelling – Modelagem

A modelagem, na metodologia CRISP-DM, é dividida em seleção de técnicas para o modelo, definição de procedimentos de teste, construção do modelo e avaliação do modelo.

Selecione as técnicas do modelo, levando em consideração as suposições dele, como a distribuição de dados, se lida bem com a falta de dados e dados categóricos, o tipo de output…

Defina os procedimentos e requisitos para validar a qualidade e validade do modelo. Crie um plano bem estruturado com as métricas e como os dados foram divididos em treino, teste e validação.

Construa os modelos. Anote racionalizações para os parâmetros, dificuldades e o resultado.

Avalie o modelo – apenas o modelo, não o resultado, isso será na próxima fase. Aqui vamos levar em consideração os critérios de sucesso do modelo e do processo de teste. Compare os diferentes modelos e parâmetros.

Você poderá retornar ao passo anterior durante o desenvolvimento deste estágio.

5. Evaluation – Avaliação

Avalie resultados, revise o projeto e determine os próximos passos.

Converse com o time de negócio e avaliem se o modelo atinge os critérios de sucesso e objetivo do negócio. Compare todos os modelos.

Após ter selecionado os modelos mais adequados, reveja o processo e avalie se não há nenhum ponto importante a ser revisto. Avalie se os atributos utilizados fazem sentido e realmente estão disponíveis, cheque novamente a qualidade dos dados.




Para os próximos passos, o time de negócios e de de projeto devem decidir se haverão mais iterações para refinar o modelo ou se o modelo já pode ser implementado.

6. Deployment – Implantação

A última etapa da metodologia CRISP-DM é a implantação, que deve organizar o modelo de forma que o cliente possa utilizar.

Planeje com cuidado a implantação, monitorização e manutenção do modelo. Elabore a documentação com detalhes, ações para recuperação, detalhes e dicas para o cliente e o que for necessário para o correto funcionamento do modelo.


Leia também:

Integração de Dados

5 Motivos para Assistir Coded Bias

Paradoxo de Simpson: como os dados podem te enganar

Soluções para Riscos em Projetos de Dados


Metodologia SEMMA

A metodologia SEMMA foi desenvolvida pelo SAS Institute, visando seu produto SAS Enterprise Miner. Entretanto, o processo pode ser adaptado para outras ferramentas. A metodologia é iterativa.

1. Sample – Amostra

Dentro da metodologia SEMMA, este passo é opcional.

Selecione uma amostra dos dados que seja grande o suficiente para conter informações significativas, mas pequena o suficiente para manipular rapidamente.

O uso de uma amostra representativa em vez de todo o volume reduz o tempo de processamento necessário, permitindo obter informações importantes mais rapidamente. Se as tendências aparecem nos dados como um todo, eles serão rastreáveis ​​em uma amostra representativa.

Divida seus dados em 3: treinamento, teste e validação.

2. Explore – Explorar

Na metodologia SEMMA, o passo seguinte é procurar tendências e anomalias através de visualizações ou métodos estatísticos descritivos.

Se a exploração visual não revelar tendências claras, você pode explorar os dados por meio de técnicas estatísticas e agregação.




3. Modify – Modificar

Crie, selecione e transforme as variáveis ​​para o processo de seleção de modelo.

Com base em suas descobertas na fase de exploração, você pode precisar manipular seus dados para incluir informações como a agregação de clientes e subgrupos significativos, ou para apresentar novas variáveis.

Você também pode precisar procurar outliers e reduzir o número de variáveis ​​para restringi-los às mais significativas.

Como os processos da metodologia SEMMA são dinâmicos e iterativos, você pode atualizar métodos ou modelos quando novas informações estiverem disponíveis.

4. Model – Modelo

Crie seu modelo levando em consideração que cada tipo de modelo é apropriado dentro de situações específicas de mineração de dados, dependendo dos dados.

Por exemplo, as redes neurais são muito boas no ajuste de relacionamentos não lineares altamente complexos.

5. Assess – Avaliar

Avalie seus resultado avaliando a utilidade e confiabilidade do modelo e estime seu desempenho.

Uma forma de avaliar um modelo é aplicá-lo a uma parte dos dados reservados durante a fase de amostragem. Se o modelo for válido, deve funcionar para estes dados reservados, bem como para a amostra usada para construir o modelo.

A metodologia SEMMA permite, assim, você pode testar o modelo em relação aos dados conhecidos. Por exemplo, se você sabe quais clientes em um arquivo tinham altas taxas de retenção e seu modelo prevê retenção, você pode verificar se o modelo seleciona esses clientes com precisão.




Saiba mais:

CRISP – DM

SAS

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *